• Nenhum resultado encontrado

Pontifícia Universidade Católica de São Paulo PUC-SP

N/A
N/A
Protected

Academic year: 2021

Share "Pontifícia Universidade Católica de São Paulo PUC-SP"

Copied!
182
0
0

Texto

(1)

Pontifícia Universidade Católica de São Paulo

PUC-SP

Yara Maria de Toledo Dias Romeiro

A LINGUAGEM VERBAL DAS ARTES VISUAIS: UMA ANÁLISE

MULTIDIMENSIONAL DO DISCURSO SOBRE A FOTOGRAFIA DE

SALLY MANN

MESTRADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

SÃO PAULO 2020

(2)

Yara Maria de Toledo Dias Romeiro

A LINGUAGEM VERBAL DAS ARTES VISUAIS: UMA ANÁLISE

MULTIDIMENSIONAL DO DISCURSO SOBRE A FOTOGRAFIA DE

SALLY MANN

MESTRADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

Dissertação apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de Mestre em Linguística Aplicada e Estudos da Linguagem, sob orientação do Prof. Dr. Antonio Paulo Berber Sardinha.

SÃO PAULO 2020

(3)

AUTORIZAÇÃO

Na qualidade de autora, autorizo, exclusivamente para fins acadêmicos e científicos, a reprodução parcial ou total desta dissertação por processos fotocopiadores ou eletrônicos.

Assinatura:

São Paulo, 14 de setembro de 2020

e-mail: yara.toledo@outlook.com

Currículo Lattes: http://lattes.cnpq.br/0035058403697439

TOLEDO DIAS, Yara Maria.

A linguagem verbal das artes visuais: uma análise multidimensional do discurso sobre a fotografia de Sally Mann / Yara Maria de Toledo Dias Romeiro. - São Paulo: 2020.

xix + 163 p.

Orientador: Professor Doutor Antonio Paulo Berber Sardinha

Dissertação (Mestrado em Linguística Aplicada e Estudo da Linguagem) – Pontifícia Universidade Católica de São Paulo, Programa de Pós-Graduação em Linguística Aplicada e Estudo da Linguagem, 2020.

Área de concentração: Linguística Aplicada e Estudos de Linguagem.

1. Linguística de Corpus. 2. Análise Multidimensional. 3. Discurso da Arte. 4. Fotografia 5. Sally Mann.

(4)

Yara Maria de Toledo Dias Romeiro

A LINGUAGEM VERBAL DAS ARTES VISUAIS: UMA ANÁLISE

MULTIDIMENSIONAL DO DISCURSO SOBRE A FOTOGRAFIA DE SALLY MANN

Aprovada em: ____/____/____

Dissertação apresentada à Banca Examinadora da Pontifícia Universidade Católica de São Paulo, como exigência parcial para obtenção do título de MESTRE em Linguística Aplicada e Estudos da Linguagem, sob orientação do Professor Doutor Antonio Paulo Berber Sardinha.

BANCA EXAMINADORA ______________________________________________________________ ______________________________________________________________ ______________________________________________________________ ______________________________________________________________ ______________________________________________________________

(5)
(6)

AGRADECIMENTO AO CNPQ

O presente trabalho foi realizado com apoio do Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ).

This study was financed in part by the Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPQ).

Programa:

Número de Processo: 157618/2018-8 Período: 01/08/2018 a 31/07/2020

(7)

AGRADECIMENTOS

Nestes últimos dois anos pavimentei a rota de um sonho: o de pertencer à academia, o de alçar voos mais altos e me desafiar a cruzar algumas barreiras que considerava intransponíveis. Cheguei ao LAEL em busca de um Mestrado em Linguística Aplicada e o que recebi superou minhas expectativas: hoje pertenço a um grupo de pesquisa que me recebeu de braços abertos e com o qual pude contar em todas as ocasiões que precisei, literalmente, desde minha primeira aula. Os professores e colegas com quem tive contato mais próximo durante meu mestrado além de possuírem um vasto conhecimento em suas áreas, buscam também sempre estar a par do que há de mais novo para suas pesquisas e são generosos ao compartilhar sua sabedoria com os recém-chegados, como eu. É uma honra e uma grande responsabilidade fazer parte desse time.

Primeiramente, gostaria de agradecer a meu orientador, Prof. Dr. Tony Berber Sardinha, pela oportunidade e pela confiança. Agradeço por seu empenho e generosidade em compartilhar seu conhecimento e propiciar meu desenvolvimento acadêmico.

Aos Professores do LAEL, em especial à Profa. Dra. Maximina Freire, que me apresentou à Teoria da Complexidade e que é uma grande inspiração profissional. Agradeço também à Profa. Dra. Mara Sophia Zanotto e à Profa. Dra. Maria Francisca Lier-DeVitto, que me apresentaram facetas da Linguística e da Linguística Aplicada que fundamentaram meu conhecimento da área.

Agradeço também a minha colega e amiga Profa. Dra. Simone Vieira Resende, que percebeu em mim um potencial que eu sequer conhecia. Por ter me mostrado o caminho das pedras e por ter me convencido de que fazer um Mestrado em Linguística Aplicada seria, sim, possível para mim, ela desempenhou (e ainda desempenha) um papel essencial nesta minha trajetória, e por seu apoio serei eternamente grata.

Agradeço a todos os integrantes do grupo de pesquisa GELC, cujo conhecimento das diversas facetas inerentes à Linguística de Corpus e à Análise Multidimensional apenas é suplantado pela generosidade com a qual eles compartilham suas informações. Em especial gostaria de agradecer à Profa. Dra.

(8)

Márcia Veirano Pinto, que gentilmente concordou em participar da banca da minha qualificação, e cujas sugestões foram imprescindíveis para a continuidade da redação da minha dissertação. Agradeço também à Dra. Maria Carolina Zuppardi, ao Dr. Carlos Kauffmann, à Dra. Cristina Mayer, à Maria Cláudia Nunes Delfino, ao Denis Owa, ao Rafael Fonseca de Araújo, e ao Alexandre Trigo por dividir comigo sua experiência e conhecimento e pelo constante apoio.

Agradeço aos funcionários do Programa de Pós-Graduação em Linguística Aplicada e Estudos da Linguagem (LAEL), em especial à querida Maria Lúcia Reis, pela preocupação e carinho.

Aos amigos e familiares, em especial à minha esposa Isabel por sua paciência, por compreender minhas ausências e sempre apoiar meus projetos. Agradeço também à minha irmã, Renata Pedrosa que é minha grande inspiração tanto em termos acadêmicos com pessoais. Agradeço também a meus grandes amigos Leandro Fraceto e Jessica Oliveira pelo simples e importante motivo de eles serem os melhores amigos que alguém pode ter.

Por fim, agradeço à Sra. Libânia Genésia pela ajuda na aquisição de grande parte dos livros necessários para esta pesquisa, e a meus queridos Francisco, Angelina, Nicolau, Shirley, Maria e Violeta, por trazerem o caos necessário à minha vida.

(9)

For me the noise of Time is not sad: I love bells, clocks, watches – and I recall that at first photographic implements were related to

techniques of cabinetmaking and the machinery of precision: cameras, in short, were clocks for seeing, and perhaps in me someone very old still hears in the photographic mechanism the living sound of the wood.

(10)

RESUMO

Textos sobre as artes visuais desempenham funções importantes na sociedade, apoiando, destacando, descrevendo, avaliando, educando e teorizando sobre o próprio objeto artístico (cf. LAZZERETTI, 2016). Com base nesse discurso, as teorias da arte são formadas e os conceitos através dos quais a arte é vista e avaliada são desenvolvidos. O objetivo desta pesquisa é investigar o universo discursivo da fotografia a partir de uma perspectiva de Análise Multidimensional de base lexical (BERBER SARDINHA, 2014, 2017, 2019), que é uma abordagem baseada em cálculos estatísticos capaz de detectar grupos de itens lexicais que coocorrem em textos, de forma a revelar temas recorrentes na linguagem utilizada. Para conduzir esta pesquisa, um corpus composto por 555 textos (aproximadamente 765.000 palavras), representando o discurso sobre a fotógrafa americana Sally Mann, foi coletado e analisado. O corpus compreende 12 registros diferentes, entre os quais livros de fotografia escritos pela artista, textos de parede de suas exposições e artigos da imprensa geral e especializada, entre outros, extraídos da biblioteca oficial de Mann e de arquivos públicos e abrangendo um período superior a 30 anos. Os textos do corpus foram limpos, depois lematizados e marcados para parte do discurso com o TreeTagger. Um script revelou os principais lemas, contou e normatizou suas ocorrências. As contagens normatizadas foram submetidas a uma análise fatorial no

SAS University Edition. Os sete fatores resultantes foram interpretados como

dimensões lexicais relacionadas aos temas subjacentes à obra fotográfica de Mann, centrados no Sul norte-americano, no fascínio pela mortalidade e na questão familiar. Esta pesquisa pretende contribuir para o uso de estudos linguísticos empíricos, baseados em corpus, como uma ferramenta para investigar a arte e seu discurso.

Palavras-chave: Linguística de Corpus; Análise Multidimensional; Discurso da

(11)

ABSTRACT

Texts about the visual arts perform important functions in the field, supporting, highlighting, describing, assessing, educating about, and theorizing on the artistic object itself (cf. LAZZERETTI, 2016). Based on such discourse, art theories are formed and concepts through which art is regarded and assessed are developed. The objective of this study is to investigate the discursive universe of Sally Mann’s photography from a lexical-based Multidimensional Analysis (BERBER SARDINHA, 2014, 2017, 2019), which is a statistically-based approach capable of detecting groups of lexical items that co-occur in texts, revealing recurrent themes in the language used in the texts. To conduct this investigation, a corpus composed of 555 texts (approximately 765.000 words), depicting the discourse about American photographer Sally Mann was collected and analyzed. The corpus comprises 12 different registers, including photography books written by the artist, wall texts from her exhibitions and articles from the general and specialized press, among others, taken from Mann's official library and public archives and covering a period of over 30 years. The texts were cleaned up, then lemmatized and tagged for part-of-speech with the TreeTagger software. A script revealed the most prominent lemmas, counted, and normed their occurrences. The normed counts were submitted to a factorial analysis in SAS University Edition. The resulting seven factors were interpreted as lexical dimensions related to the themes underlying Mann’s photographic work, centered on the North American South, the fascination with mortality, and family relations. This study aims to contribute to the use of empirical, corpus-based linguistic studies as a tool to investigate art and its discourse.

Keywords: Corpus Linguistics, Multidimensional Analysis, Art Discourse;

(12)

SUMÁRIO

1. INTRODUÇÃO ... 1

2. FUNDAMENTAÇÃO TEÓRICA ... 8

2.1. LINGUÍSTICA DE CORPUS ... 9

2.1.1. LINGUÍSTICA DE CORPUS: HISTÓRICO... 10

2.1.2. DEFINIÇÃO DE CORPUS ... 13

2.1.3. TIPOLOGIA E CRITÉRIOS PARA O DESENHO DO CORPUS ... 14

2.1.4. DESENHO DO CORPUS E REPRESENTATIVIDADE ... 16

2.1.5. A CRIAÇÃO DE CORPORA COMO UM PROCESSO CÍCLICO ... 20

2.2. ANÁLISE MULTIDIMENSIONAL ... 24

2.2.1. ANÁLISE FATORIAL ... 27

2.2.2. ANÁLISE MULTIDIMENSIONAL LEXICAL ... 31

2.3. A ARTE E SEU DISCURSO ... 33

2.3.1. A ARTE CONTEMPORÂNEA... 35

2.3.2. O DISCURSO DA ARTE ... 39

2.3.3. A FOTOGRAFIA COMO EXPRESSÃO ARTÍSTICA ... 42

3. METODOLOGIA... 48

3.1. DESENHO DO CORPUS ... 48

3.2. COLETA DE DADOS ... 49

3.3. DETERMINAÇÃO DOS REGISTROS ... 50

3.3.1. CLASSIFICAÇÃO DOS TEXTOS DO SALLY MANN CORPUS ... 51

3.3.2. MÍDIA ... 54 3.3.3. FORMATO ... 57 3.3.4. REGISTRO ... 57 3.3.5. PÚBLICO LEITOR ... 63 3.3.6. MODALIDADE ... 65 3.4. ANÁLISE TEMPORAL DO SMC ... 65

3.5. PREPARAÇÃO DOS TEXTOS PARA ANÁLISE ... 68

3.5.1. LIMPEZA DOS TEXTOS COLETADOS... 68

3.5.2. ETIQUETAGEM DOS TEXTOS LIMPOS ... 70

3.6. ANÁLISE FATORIAL DOS DADOS ... 75

4. APRESENTAÇÃO E ANÁLISE DOS RESULTADOS ... 89

4.1. DIMENSÃO 1 – OPINIÃO E JULGAMENTO NÃO ESPECIALIZADOS... 90

4.2. DIMENSÃO 2 – PAISAGENS DO SUL / ESPÍRITO SOMBRIO / PROCESSO FOTOGRÁFICO ... 94

(13)

4.4. DIMENSÃO 4 – RELATOS DO COTIDIANO ... 104

4.5. DIMENSÃO 5 – INTIMIDADE EM EXPOSIÇÃO... 108

4.6. DIMENSÃO 6 – LIVRO DE MEMÓRIAS ... 111

4.7. DIMENSÃO 7 – CRÍTICA ESPECIALIZADA E APRECIAÇÃO ARTÍSTICA ... 115

4.8. RELAÇÃO ENTRE AS DIMENSÕES ... 118

5. CONSIDERAÇÕES FINAIS ... 123

5.1. SALLY MANN E O SUL DOS ESTADOS UNIDOS ... 124

5.2. SALLY MANN E O FASCÍNIO PELA MORTALIDADE ... 126

5.3. SALLY MANN E SUA FAMÍLIA ... 127

6. REFERÊNCIAS ... 130

(14)

LISTA DE APÊNDICES

APÊNDICE A – PLANILHA SALLY_MANN_TEXTS.XLSX (TRECHO) ...134 APÊNDICE B – EXEMPLOS DA DIMENSÃO 1 (VARIÁVEIS: THINK, THING,

KNOW, WANT, TALK) ...135 APÊNDICE C – EXEMPLOS DA DIMENSÃO 2 (VARIÁVEIS: EARTH, LAND

COLLODION, SITE, PLATE) ...137 APÊNDICE D – EXEMPLOS DA DIMENSÃO 3 (VARIÁVEIS: WORK, SERIES,

HUSBAND, DOCUMENTARY, MUSEUM) ...139 APÊNDICE E – EXEMPLOS DA DIMENSÃO 4 (VARIÁVEIS: HEAD, HOUSE, FOOT, WINDOW, WALK) ...141 APÊNDICE F – EXEMPLOS DA DIMENSÃO 5 (VARIÁVEIS: GIRL, POSE, CHILD, INNOCENCE, ADULT) ...143 APÊNDICE G – EXEMPLOS DA DIMENSÃO 6 (VARIÁVEIS: MEMOIR, RACE, HOLD, SOUTHERN, PARENT) ...145 APÊNDICE H – EXEMPLOS DA DIMENSÃO 7 (VARIÁVEIS: SPACE, OBJECT, WALL, PHOTOGRAPH, PRESENT, IMAGE) ...147

(15)

LISTA DE ANEXOS

ANEXO 1 – BIBLIOGRAFIA DE SALLY MANN ...150 ANEXO 2 – ETIQUETAS UTILIZADAS PELO TREETAGGER ...151 ANEXO 3 – EXEMPLOS DAS FOTOGRAFIAS DESCRITAS NA DIMENSÃO 2 ....153 ANEXO 4 – EXEMPLOS DAS FOTOGRAFIAS DESCRITAS NA DIMENSÃO 3 ....156 ANEXO 5 – EXEMPLOS DAS FOTOGRAFIAS DESCRITAS NA DIMENSÃO 5 ....160

(16)

LISTA DE QUADROS

QUADRO 1 – TIPOLOGIA DOS CORPORA ... 15

QUADRO 2 – ASPECTOS DAS AMDS FUNCIONAL E LEXICAL ... 32

QUADRO 3 – NOMENCLATURA DOS ARQUIVOS DO SMC ... 53

QUADRO 4 – NÍVEIS DA VARIÁVEL MÍDIA ... 54

QUADRO 5 – NÍVEIS DA VARIÁVEL FORMATO ... 57

QUADRO 6 – NÍVEIS DA VARIÁVEL REGISTRO ... 58

QUADRO 7 – NÍVEIS DA VARIÁVEL PÚBLICO LEITOR... 63

QUADRO 8 – NÍVEIS DA VARIÁVEL MODALIDADE ... 65

QUADRO 9 – AS SETE DIMENSÕES DO SALLY MANN CORPUS ... 89

QUADRO 10 – VARIÁVEIS CARREGADAS NA DIMENSÃO 1 ... 90

QUADRO 11 – EXEMPLO DE TEXTO DA DIMENSÃO 1 ... 92

QUADRO 12 – VARIÁVEIS CARREGADAS NA DIMENSÃO 2 ... 95

QUADRO 13 – EXEMPLO DE TEXTO DA DIMENSÃO 2 ... 96

QUADRO 14 – VARIÁVEIS CARREGADAS NA DIMENSÃO 3 ...100

QUADRO 15 – EXEMPLO DE TEXTO DA DIMENSÃO 3 ...101

QUADRO 16 – VARIÁVEIS CARREGADAS NA DIMENSÃO 4 ...104

QUADRO 17 – EXEMPLO DE TEXTO DA DIMENSÃO 4 ...105

QUADRO 18 – VARIÁVEIS CARREGADAS NA DIMENSÃO 5 ...108

QUADRO 19 – EXEMPLO DE TEXTO DA DIMENSÃO 5 ...110

QUADRO 20 – VARIÁVEIS CARREGADAS NA DIMENSÃO 6 ...112

QUADRO 21 – EXEMPLO DE TEXTO DA DIMENSÃO 6 ...114

QUADRO 22 – VARIÁVEIS CARREGADAS NA DIMENSÃO 7 ...115

(17)

LISTA DE TABELAS

TABELA 1 – COMPOSIÇÃO FINAL DO SALLY MANN CORPUS ... 52

TABELA 2 – NÚMERO DE TEXTOS E PALAVRAS DO SALLY MANN CORPUS, POR DÉCADA... 67

TABELA 3 – ANOVAS DA DIMENSÃO 1 ... 93

TABELA 4 – ANOVAS DA DIMENSÃO 2 ... 98

TABELA 5 – ANOVAS DA DIMENSÃO 3 ...104

TABELA 6 – ANOVAS DA DIMENSÃO 4 ...107

TABELA 7 – ANOVAS DA DIMENSÃO 5 ...111

TABELA 8 – ANOVAS DA DIMENSÃO 6 ...114

(18)

LISTA DE FIGURAS

FIGURA 1 – PROCESSO CÍCLICO PARA A CRIAÇÃO DE UM CORPUS ... 20

FIGURA 2 – TIPOS DE ANÁLISE FATORIAL... 30

FIGURA 3 – DISCURSOS DA COMUNICAÇÃO EM MUSEUS / SOBRE ARTE ... 40

FIGURA 4 – TELA PRINCIPAL DO TREETAGGER ... 71

FIGURA 5 – TEXTO DO SALLY MANN CORPUS ETIQUETADO... 72

FIGURA 6 – ARQUIVO COM A CONTAGEM DAS VARIÁVEIS DO SALLY MANN CORPUS... 74

FIGURA 7– TELA DO SAS ON DEMAND ... 75

FIGURA 8 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 1) ... 76

FIGURA 9 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 2) ... 76

FIGURA 10 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 3) ... 77

FIGURA 11 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 4) ... 78

FIGURA 12 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 5) ... 79

FIGURA 13 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 6) ... 79

FIGURA 14– PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 7) ... 80

FIGURA 15 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 8) ... 81

FIGURA 16 – EIGENVALUES... 81

FIGURA 17 – GRÁFICO DE SEDIMENTAÇÃO (SCREE PLOT) ... 82

FIGURA 18 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 9) ... 85

FIGURA 19 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 10) ... 85

FIGURA 20: VARIAÇÃO EXPLICADA POR CADA FATOR (ROTAÇÃO: PROMAX) ... 86

FIGURA 21 – PASSO A PASSO DA ANÁLISE FATORIAL (PASSO 11 - ANOVAs) 87 FIGURA 22 – RELAÇÃO ENTRE AS DIMENSÕES ...120

(19)

LISTA DE ABREVIATURAS

AMD – Análise Multidimensional

ANOVA – Analysis of Variance / Análise de Variância CSV – Comma-Separated Values

(20)

1. INTRODUÇÃO

A produção artística de uma comunidade traz em si o cerne dos valores culturais e sociais de sua época. O ambiente no qual os objetos de arte são criados ao mesmo tempo afeta sua criação e é afetado por ela: não há como analisar a criação artística como se ela existisse num vácuo, desprendida do ambiente no qual ela foi concebida. Por conseguinte, o que se escreve sobre os objetos de arte e seus criadores, por retratar o espírito da época em que esses textos foram escritos, deve ser considerado parte fundamental para o entendimento da obra em si, e do caldo cultural do qual ela faz parte.

O estudo do discurso da arte é relevante, portanto, para que se possa compreender melhor o contexto artístico no qual a obra está inserida e para que se consiga vislumbrar as forças atuantes na língua em uma sociedade que, por vezes, nos impele a julgar algo como “belo” ou “feio”, “ofensivo” ou “apropriado”. Especialmente inquisitiva, nesse aspecto, é a Arte Contemporânea, que, por ser um movimento cultural da atualidade, tem suas definições relativamente fluidas, mas no qual se pode notar um ostensivo engajamento político e um questionamento do status quo e das idiossincrasias de nosso mundo.

Entre as artes visuais presentes na contemporaneidade, a fotografia é especialmente interessante por ser um meio de expressão artística mais acessível ao grande público, por se basear na reprodução mecânica de imagens (BENJAMIN, 2017). Entretanto, pode-se dizer que a fotografia é um dos meios mais incompreendidos como arte em si. Desde seu advento, quando a fotografia era considerada por muitos como apenas uma forma mecânica de documentação da realidade, até os dias de hoje, em que diariamente somos inundados por uma quantidade incontável de imagens, há uma certa relutância em se considerar como arte imagens concebidas com a utilização de equipamentos fotográficos, não dependentes de habilidades tradicionalmente tidas como artísticas, como é o caso da pintura e da escultura, por exemplo. Mais curioso ainda, é a confusão, que persiste de certa forma até os dias de hoje, entre o objeto fotografado e a realidade, quando, na

(21)

verdade, a escolha do fotógrafo é uma questão mais temporal que imagética: mais que escolher fotografar um objeto, o que se escolhe, na verdade, é quando fotografá-lo. Barthes (2015, p.14), em seu livro A Câmara Clara, publicado pela primeira vez em 1980, comenta essa percepção da imagem fotografada mais como atrelado ao tempo que como imagem por si só:

O que a fotografia reproduz ao infinito só ocorreu uma vez: ela repete mecanicamente o que nunca mais poderá repetir-se existencialmente. Nela, o acontecimento jamais se sobrepassa para outra coisa: ela reduz sempre o corpus de que tenho necessidade ao corpo que vejo; ela é o Particular absoluto, a Contingência soberana, fosca e um tanto boba, o Tal (tal foto, e não a Foto), em suma a Tiquê1, a Ocasião, o Encontro, o Real, infatigável.

A imagem fotográfica, justamente por não ser mais que uma infinitesimal fração de realidade congelada no tempo, necessita, portanto, de um arcabouço narrativo para que ela possa ser compreendida, apreciada e ancorada no que se costuma referir como realidade. Tanto as imagens fotográficas tidas como objetos de arte e expostas nos mais variados museus, quanto aquelas recordações de família conservadas em álbuns de fotografia presentes em praticamente todos os lares, necessitam de uma história, de uma narrativa, para alcançarem completamente o seu significado: é quando se atrela a narrativa à imagem fotográfica que a memória do objeto fotografado se revela. E, quando não há uma memória pessoal atrelada a uma fotografia específica, ainda assim precisamos criar, por nossa própria conta, o “antes” e o “depois” do momento fotografado; precisamos de uma narrativa para fixar aquela fração de tempo capturada por um equipamento fotográfico de volta a uma linha do tempo, mesmo que imaginária, para assim darmos conta de seu significado, ou, parafraseando Barthes, o “corpo que vejo” é tudo o que tenho de concreto naquela imagem específica; o “corpus de que tenho necessidade”, se não estiver prontamente acessível, precisa ser fabricado para que haja a compreensão da imagem.

A pesquisa aqui apresentada pretende investigar o universo das imagens

1 Citado por Barthes, o termo Tiquê, do grego Týkhe, remete à ideia lacaniana do encontro acidental

de causas reais. É um recurso conceitual que explica a repetição de circunstâncias fortuitas ou desconcertantes que acontecem na vida de uma pessoa.

(22)

criadas pela fotógrafa Sally Mann por um ângulo incomum: em vez de tratar das imagens em si, baseando minha análise nos arcabouços teóricos de disciplinas como a Semiótica ou a História da Arte, o que pretendo é investigar, dentro do arcabouço teórico da Linguística de Corpus (LC) e da Análise Multidimensional (AMD) de base lexical, o que está “por trás” desses objetos fotográficos através do que deles se fala e escreve, e do que se fala e escreve de quem os produz – nomeadamente, neste caso, Sally Mann.

A fotógrafa cuja vida e obra é o objeto de estudo desta dissertação, Sally Mann, nasceu em Lexington, no estado norte-americano da Virgínia, em 1951. Mann começou a fotografar aos 16 anos e, no final dos anos 1970, quando aluna do Hollins College, fotografou a construção do novo edifício de Direito da faculdade. Esse trabalho, um conjunto de imagens surreais da construção e de seus arredores, resultou em sua primeira exposição individual, The Lewis Law Portfolio, e a publicação de um catálogo homônimo.

Desde essa exibição, Sally Mann já atraíra um grande e interessado público e já começara a se tornar a influente fotógrafa que ela certamente é hoje. Com suas subsequentes publicações, em 1988 (At Twelve: Portraits of Young Women) e em 1992 (Immediate Family), Mann, apesar de todas as controvérsias em torno desses dois trabalhos, firmou-se definitivamente como uma das mais importantes e mais premiadas fotógrafas de sua geração. Em 2020, aos 69 anos, Sally Mann ainda apresenta uma criação prolífera: publicou recentemente um livro de memórias (Hold

Still: A Memoir with Photographs), que, em 2016, recebeu a Medalha Andrew Carnegie

de Excelência em Não-Ficção. Ela também está em turnê pelos Estados Unidos com sua mais recente exposição: A Thousand Crossings, na qual a artista retrata, com a delicadeza e a pungência características de sua obra, as paisagens do Sul dos Estados Unidos, área onde nasceu e vive até hoje. As imagens dessa exposição evocam questões provocativas sobre a história norte-americana, sobre conflitos raciais e religiosos e sobre sua própria identidade e a de seus conterrâneos sulistas. Tais questões se mostram extremamente pertinentes nos dias de hoje.2

A escolha da fotógrafa Sally Mann, além de uma preferência pessoal, deve-se

(23)

ao fato de essa artista contemporânea apresentar uma grande produção artística que se estende por mais de 40 anos. Outro motivo importante para a escolha de Mann foi o quão diferente é cada uma das fases de seu trabalho. A artista, ao longo de sua trajetória, teve como objetos de sua arte elementos tão diferentes entre si como paisagens, fotografias do cotidiano familiar, nus, e até cadáveres. Diversa também tem sido a recepção de sua obra por críticos de arte e pelo público geral. Certamente, há pontos de semelhança entre as fases de seu trabalho, como o fato de praticamente todas as suas fotografias serem em preto-e-branco e de terem, em grande parte, sido feitas com uma câmera de fole de grande formato do começo do século XX, cujo mecanismo exigia que seus modelos permanecessem imóveis por alguns segundos. As diferenças entre as fases da artista e as temáticas que subjazem dos escritos feitos sobre suas exposições, sua obra e sua vida, por parte da crítica especializada e do público leigo, são o objeto de estudo deste projeto. A comparação entre o que é frequentemente dito e suposto sobre as diferentes fases da obra de Sally Mann, e o que é desvendado pela análise do corpus de textos sobre a vida e a obra dessa artista, trazem surpresas interessantes a respeito das temáticas e intenções que talvez não sejam facilmente detectadas por uma análise superficial de sua obra.

A utilização dos pressupostos da LC e da AMD lexical para tal investigação traz a possibilidade do estudo de um número considerável de textos sobre Mann e sua obra, pertencentes a diferentes registros, que, na LC, é definido como a “variedade de texto definida pelas variedades situacionais, isto é, não linguísticas, cujos rótulos são empregados por falantes da língua no dia-a-dia” (BERBER SARDINHA, 2004, p. 303). Essa multiplicidade de textos e registros permite uma compreensão mais abrangente do contexto artístico da obra de Sally Mann, e do discurso da arte em si. Valendo-se dos dados estatísticos resultantes da AMD lexical, são reveladas coocorrências lexicais e padrões temáticos que dificilmente seriam notados mesmo com uma leitura detalhada dos textos mais relevantes do corpus deste estudo.

Como se pode notar nos parágrafos anteriores, a investigação aqui apresentada pretende utilizar-se dos preceitos da LC e do conceito de dimensões lexicais da AMD como ferramenta metodológica para a investigação de diferentes áreas do conhecimento, especificamente o discurso da arte e da fotografia. A mesma abordagem também se ocupou, em outros estudos, de temas como o ensino de línguas, a exemplo de Veirano Pinto (2008), em que a autora pesquisou o uso das

(24)

palavras things, thing, anything, something e everything em corpora de aprendizes, ou de Rampaso (2016), que se vale dos recursos da LC para a elaboração de materiais didáticos para o ensino de inglês voltado para negócios. Percebe-se também um crescente interesse entre pesquisadores da área em utilizar o ferramental oferecido pela LC para o estudo de registros que provêm de variadas situações de produção de conhecimento, tais como Mayer (2008), que investiga a linguagem utilizada na escrita na web, e Fonseca de Araújo (2017), que analisa a linguagem utilizada nos Reality TV

Shows norte-americanos. Não obstante, por mais que a utilização dos pressupostos

da LC e do conceito de dimensões de variação lexical para a investigação de diferentes áreas do conhecimento humano esteja em voga, há uma lacuna significativa no que se refere ao estudo da narrativa das artes visuais e fotografia. Algumas exceções dignas de nota são a investigação de Alessandrini Szorenyi (2017), cuja tese de doutorado lança mão dos pressupostos da LC para abordar a conceptualização da arte por meio de textos utilizados para descrever, avaliar e interpretar objetos de arte da contemporaneidade, e o estudo de Lazzeretti (2016), que analisa um corpus diacrônico de diferentes registros que se inscrevem no universo da comunicação realizada nos museus.

Uma vez explicitada a relevância de se estudar a narrativa que permeia a produção artística, e em especial a fotográfica, e a pertinência de utilizar para tal tarefa os pressupostos teórico-metodológicos da LC e da AMD de base lexical, apresento aqui os objetivos e os questionamentos que motivaram este trabalho.

Tendo como base os textos da fotógrafa Sally Mann e sua produção artística, a utilização dos pressupostos da Linguística de Corpus e o conceito de dimensões de variação lexical, o estudo aqui apresentado tem como objetivo investigar o universo discursivo das artes visuais e introduzir um estudo de AMD de base lexical ao mundo das artes. Esse objetivo é dividido em dois objetivos específicos:

1. Aplicar a AMD de base lexical para a investigação do domínio do discurso da arte;

2. Identificar as dimensões lexicais referentes à fotógrafa Sally Mann e sua obra, com base em um corpus representativo composto de textos sobre a artista, em inglês.

Tais objetivos servem como base para que a pergunta desta pesquisa possa ser respondida: Até que ponto os agrupamentos lexicais revelados na análise

(25)

Sally Mann? Pretendo, portanto, entender até que ponto as dimensões lexicais

interpretadas a partir dos fatores divisados pela análise fatorial são capazes de, por assim dizer, revelar a fotografia de Sally Mann. Ou, dito de outra forma, se seria possível “enxergar” suas imagens apenas analisando o que fora escrito sobre elas.

Para tal, a dissertação aqui apresentada é organizada em quatro seções: na primeira, Fundamentação Teórica, apresento os conceitos diretivos da Linguística de Corpus e da Análise Multidimensional de base lexical, pilares teóricos e metodológicos desta pesquisa. Apresento também as definições dos principais termos que permeiam essa linha de pesquisa, além de informações sobre a história da LC e os critérios para o desenho de um corpus representativo, ponto de partida primordial para que se possa obter resultados robustos com a pesquisa.

Também nessa parte apresento importantes aspectos inerentes à arte contemporânea, em especial ao discurso da arte e à fotografia como expressão artística na contemporaneidade, que é a categoria na qual a obra de Sally Mann se enquadra. A compreensão dessa área de conhecimento exterior à Linguística Aplicada em si, mas, que por ser permeada pela linguagem, é elegível para ser estudada sob sua ótica, é imprescindível para esta investigação, por facilitar a interpretação das dimensões reveladas e por proporcionar o ancoramento das constatações desta pesquisa para além dos muros da academia, para devolver à sociedade novas propostas de entendimento dos fenômenos da contemporaneidade.

Na segunda seção, Metodologia, apresento as etapas inerentes à esta investigação e que descrevem o processo de planejamento, coleta, preparação e processamento do corpus de pesquisa, com ênfase na composição do Sally Mann Corpus (SMC) e a determinação de seus registros. Adicionalmente, nessa seção, apresento o processo de preparação, limpeza e etiquetagem dos textos do SMC, as dificuldades encontradas e os programas computacionais utilizados. Finalmente, descrevo os passos do processo da análise fatorial que subjazem à AMD de base lexical e que revelaram os fatores interpretados nesta pesquisa.

Na terceira seção desta dissertação, são apresentados os resultados da análise fatorial descrita na seção anterior e a interpretação qualitativa dos fatores por ela revelados. Nessa parte, ofereço a justificativa para a seleção de sete fatores como

(26)

a opção mais representativa e interpretável para a investigação aqui conduzida e, em seguida, discorro sobre cada uma das sete dimensões (fatores interpretados). Também, a título de exemplo, apresento trechos de textos do SMC que se revelaram especialmente característicos para cada dimensão.

Por fim, na quarta e última seção, traço minhas considerações finais: discorro sobre os possíveis caminhos que investigações sobre a linguagem da Arte Contemporânea e da Fotografia, que se fundamentam nos pressupostos da LC e no conceito de dimensões lexicais, poderiam nos levar. Também sugiro algumas utilizações práticas de pesquisas semelhantes a esta para a difusão de conceitos relacionados ao mundo da arte, com a finalidade de colaborar com a apreciação de objetos de arte e para servir de ferramenta educacional em diferentes contextos.

(27)

2. FUNDAMENTAÇÃO TEÓRICA

São apresentados, nesta seção, os pressupostos teóricos e metodológicos condutores desta pesquisa. Para tanto, esta Fundamentação Teórica é dividida em três partes: a primeira parte versa sobre os conceitos e o histórico da Linguística de Corpus (LC). Nela, a definição de corpus é discutida e os critérios para a construção de um corpus de pesquisa são apresentados, bem como são descritas as ferramentas utilizadas para a análise de seus dados.

A segunda parte trata dos pressupostos da Análise Multidimensional (AMD)3, o conceito de dimensões concebidos por Biber (1988), publicados em seu livro Variation

Across Speech and Writing, e das definições de termos relevantes à Análise Fatorial,

análise estatística essencial para a AMD. Também verso nesta parte sobre a variação lexical da AMD, desenvolvida por Berber Sardinha (2014, 2017, 2019) e que será usada como um dos pilares desta investigação.

Como a proposta desta pesquisa é a utilização dos pressupostos da LC e da AMD de base lexical na investigação do discurso da Arte, mais especificamente aquele relacionado à fotografia de Sally Mann, na terceira parte aventuro-me por áreas além da Linguística de Corpus, ou mesmo da Linguística Aplicada tradicional, e apresento alguns conceitos relevantes sobre a Arte Contemporânea, em cujo período se dá a produção artística de Sally Mann, para localizar os resultados da investigação aqui apresentada e, assim, facilitar a etapa de interpretação das dimensões de variação de registro. Também discorro sobre a importância do chamado “discurso da arte”, ou Artspeak (HARRIS, 2003), sem o qual a compreensão das expressões artísticas seria, no mínimo, incompleta. Por fim, a fotografia é abordada nesta parte no que diz respeito a seu advento e à transformação causada pela possibilidade da reprodução mecânica de imagens (BENJAMIN, 2017), bem como sobre sua importância como expressão artística na contemporaneidade.

3 O termo, denominado por Biber como “Multi-Feature, Multi-Dimensional Analysis of Register

(28)

2.1. LINGUÍSTICA DE CORPUS

Arcabouço teórico principal desta pesquisa, a Linguística de Corpus é uma área da Linguística Aplicada, que “se ocupa da coleta e da exploração de corpora, ou conjuntos de dados linguísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística” (BERBER SARDINHA, 2004, p.3). Para que essa investigação seja possível, o objeto de estudo da Linguística de Corpus é o corpus, que, na pesquisa aqui apresentada, denomina-se Sally Mann Corpus (SMC), criado para denomina-ser uma amostra repredenomina-sentativa do que denomina-se escreveu sobre a fotógrafa Sally Mann e sua obra, ao longo de um período de mais de 30 anos.

A Linguística de Corpus (doravante LC) deve seu surgimento à necessidade percebida por diversos linguistas em investigar a linguagem em uso, a partir da utilização de material autêntico e em quantidade suficiente para que conseguissem identificar padrões de uso da língua e, assim, esboçar generalizações sobre como ela é empregada em diferentes contextos. A LC é, portanto, uma abordagem empirista4, isto é, uma abordagem que favorece a experiência e o uso da linguagem como ponto de partida para que se conceba a linguagem como um sistema probabilístico, o que pressupõe que haja uma padronização subjacente a seu uso, de modo que alguns traços linguísticos, mesmo possíveis, não ocorrem em uma língua com a mesma frequência (BERBER SARDINHA, 2004).

4 Deve-se ressaltar a utilização da palavra “empírico”, ou “empirista”, no tocante à LC, que pode

contradizer o uso mais cotidiano da palavra: segundo Berber Sardinha (2004, p.30), “na linguística, empírico significa primazia aos dados provenientes da observação da linguagem, em geral reunidos sob forma de um corpus”.

(29)

2.1.1. LINGUÍSTICA DE CORPUS: HISTÓRICO

A pesquisa com o uso de dados linguísticos compilados sob a forma de corpora não é algo novo. Há dados históricos de corpora de citações bíblicas compilados desde a Antiguidade. Na primeira metade do século XX, pode-se encontrar diversos exemplos de trabalhos de pesquisadores dedicados à compilação linguística, como o educador Thorndike, que em 1921 elaborou uma lista das palavras mais frequentes da língua inglesa contendo 4,5 milhões de palavras, o Teacher’s Wordbook, com o intuito de aprimorar o ensino do idioma (BERBER SARDINHA, 2004, p. 252). Um outro exemplo do uso de corpora na metade do século XX é o do linguista C.C. Fries, que escreveu duas gramáticas baseadas em corpora do inglês norte-americano – a primeira, em 1940, baseada em um corpus de cartas enviadas a órgãos do governo; e a segunda, em 1952, com um corpus de conversas telefônicas de 250 mil palavras (BIBER; REPPEN, 2015, p.3). Entretanto, segundo Berber Sardinha (2004), tais pesquisas apresentam duas diferenças primordiais quando as comparamos aos estudos contemporâneos da LC: os corpora daquela época obviamente não eram eletrônicos, e a ênfase dada a tais estudos residia, de modo geral, no ensino do idioma.

Mesmo sem o processamento dos dados linguísticos por computador e com análises consideradas rudimentares quando comparadas às atuais investigações baseadas em corpora, é interessante salientar que um corpus não-computadorizado serviu de base para a criação de corpora como os que existem hoje. Por exemplo, o SEU (Survey of English Usage), compilado em Londres pela equipe de Randolf Quirk, em 1959, serviu de parâmetro para a criação, em 1964, do primeiro corpus linguístico eletrônico, o Brown University Standard Corpus of Present-Day American English, que continha 1 milhão de palavras, o que foi considerado revolucionário para o estudo de LC na época.

As pesquisas baseadas em corpora começaram a se popularizar no final da década de 80, com o início do acesso a computadores em grandes centros universitários. O desenvolvimento dessas máquinas proporcionou um aumento significativo na capacidade de armazenamento e processamento de dados, e, como

(30)

consequência, uma maior disponibilização de corpora e ferramentas de pesquisa, o que contribuiu para o fortalecimento da LC. Foi nessa época que teve início o projeto COBUILD, uma parceria da Universidade de Birmingham e a editora Collins, sob o comando do Professor John Sinclair. Esse trabalho ainda é considerado um marco para a história da LC. Também foi no final dos anos 80 que Douglas Biber lançou seu livro Variation Across Speech and Writing (1988), no qual o pesquisador apresenta a Análise Multiaspectual Multidimensional5, abordagem por ele desenvolvida e que possibilita o estudo da variação linguística de acordo com seu contexto de uso.

Vale ressaltar que, a partir dos anos 80, temos presenciado mudanças tecnológicas significativas em termos de capacidade de armazenamento de computadores pessoais; velocidade de conexão com a internet; conteúdo disponível para pesquisas on-line; e o desenvolvimento de programas dedicados à coleta e à análise de corpora. Como resultado dessa maior capacidade de processamento e maior disponibilidade de recursos, os estudos linguísticos baseados em corpus, empíricos por natureza, vêm se tornando cada vez mais populares (EGBERT, 2019), cruzando as fronteiras dos estudos estritamente relacionados à Linguística de Corpus e servindo como abordagem empírica para a pesquisa das mais diversas áreas do conhecimento humano. Em seu livro de 2011 (p. 230), McEnery e Hardie defendem a ideia de que vivemos em um mundo mediado por textos:

O mundo social e cultural que nós, como seres humanos habitamos, existe, e é expresso e registrado, em grande parte por meio da linguagem. De maneira social e política, estamos extremamente preocupados com questões [...] que existem apenas como abstrações em nossas mentes e no discurso que une nossas mentes particulares. Mesmo experiências culturais não linguísticas, como artes visuais ou música, são encontradas no contexto de uma enorme quantidade de conversas e textos sobre essas experiências. Da mesma forma, qualquer conhecimento do passado de nossa cultura, que vá além da experiência pessoal, existe principalmente como comunicação linguística (tipicamente textual) – e isto é, de fato, necessariamente verdadeiro para qualquer aspecto da cultura que se refira ao nosso futuro. Portanto, pode-se dizer que a experiência do mundo humano é amplamente uma experiência mediada textualmente e, nessa medida, os seres humanos vivem em um mundo mediado por textos.6

5 Traduzido do inglês, Multi-feature, Multi-dimensional Analysis.

6 Tradução minha, do original: “The social and cultural world that we as human beings inhabit exists,

and is expressed and recorded, to a very large degree by means of language. Socially and politically, we are overwhelmingly concerned with matters [...] that exist only as abstractions within our minds and within the discourse that links our individual minds together. Even non-linguistic cultural experiences such as visual art or music are encountered in the context of a huge quantity of talk and writing about

(31)

Se levarmos em consideração que, como os autores argumentaram, a construção, o entendimento e a transmissão desse conhecimento humano são calcados fortemente na linguagem, é compreensível que diferentes áreas de investigação acadêmica, principalmente as Ciências Sociais e Humanas, tenham como fontes de pesquisa diferentes gêneros textuais e, portanto, se beneficiariam enormemente em utilizar os pressupostos da LC como abordagem em suas pesquisas. É sabido, entretanto, que diferentes áreas de investigação já possuem seus próprios (e válidos) métodos de análise textual, mas que muitas vezes se ocupam do estudo de textos. O que a LC pode proporcionar a pesquisadores das mais diversas áreas é uma abordagem alternativa que, servindo-se dos avanços tecnológicos que nos permitem o processamento e armazenamento de uma quantidade cada vez maior de dados, pode proporcionar uma visão mais distanciada de uma grande quantidade de textos.

Tomemos como exemplo a pesquisa aqui apresentada, na qual proponho investigar o discurso da arte por meio de textos escritos sobre a fotógrafa Sally Mann: se as escolhas metodológica desta investigação tivessem tido como base o arcabouço teórico tradicional de disciplinas como a História da Arte ou a Semiótica e se baseassem na análise cuidadosa de alguns textos sobre a artista, não teria sido possível a inclusão de um número tão grande de textos quanto os que esta pesquisa apresenta, por ser inviável uma análise manual de todos os textos de um modo produtivo para a investigação. Sem a possibilidade da análise de um número significativo de textos sobre a obra de Sally Mann, o entendimento do que foi dito a seu respeito poderia ser ofuscado por minhas escolhas textuais, aumentando assim o viés da minha investigação. Não é o caso, entretanto, de preconizar a abordagem da LC em detrimento das demais, nem sugerir que práticas já estabelecidas de outras áreas sejam alteradas. A LC oferece uma alternativa para a pesquisa em Ciências Sociais e Humanas que conta com uma visão de amplo espectro para que se consiga abranger mais completamente o tema estudado.

these experiences. Similarly, any knowledge of our culture’s past beyond personal experience exists principally as linguistic (typically textual) communication – and the same is, of course, necessarily true of any aspect of the culture that refers to our future. So it can be said that experience of the human world is largely a textually mediated experience, and, to that extent, human beings live in a textually mediated world.”

(32)

Para que se inicie qualquer investigação baseada nos pressupostos da LC, é necessário que se tenha em mão seu objeto de estudo: o corpus. Na próxima seção, será apresentada a definição de corpus, como também seus diferentes tipos e critérios para sua construção.

2.1.2. DEFINIÇÃO DE CORPUS

Objeto de estudo da LC, o corpus pode ser definido como uma coleção de dados linguísticos pertencentes ao uso oral e/ou escrito da língua, que sejam naturais e legíveis por computador (BERBER SARDINHA, 2004, p.16). Entretanto, além da naturalidade e legibilidade por computador, há outros pressupostos essenciais para que um agrupamento de informações sobre um idioma seja considerado um corpus, como, por exemplo a autenticidade dos dados – isto é, os textos pertencentes a um

corpus de estudo não podem ter sido escritos exclusivamente para tal fim. Além disso,

os textos componentes de um corpus não podem ter sido aleatoriamente escolhidos, é preciso que haja uma revisão cuidadosa da literatura pertinente ao objeto de estudo para definição dos critérios de coleta e uma análise dos objetivos da investigação para que crie um corpus relevante capaz de responder às perguntas de pesquisa. As questões pertinentes ao desenho do corpus de pesquisa e à sua representatividade serão tratadas a seguir, na seção 2.1.4.

Ao se definir o corpus como uma coleção de dados linguísticos pertencentes ao uso oral e/ou escrito da língua e, ao se tomar como pressuposto que esses “dados linguísticos” estão divididos em unidades independentes chamadas “textos”, deve-se analisar o que se entende como texto e quais são suas delimitações. Em linhas gerais, pode-se definir um texto como “uma unidade independente e reconhecível de linguagem natural utilizada para a comunicação, em sua modalidade oral ou escrita”7 (BIBER; CONRAD, 2009). Embora essa definição seja bastante útil para textos com delimitações precisas – tais como as dos textos escritos, por exemplo artigos

7 Tradução minha, do original: “…a recognizable self-contained unit of natural language used for

(33)

jornalísticos, ou os capítulos de um livro –, conseguir visualizar o perímetro do que pode ser chamado “texto” mostra-se uma tarefa muito mais árdua em se tratando da modalidade oral da linguagem, na medida em que não existem parâmetros determinantes que delimitem o começo e o fim de uma conversa de forma tão incisiva. Mesmo quando a linguagem é produzida em sua modalidade escrita, mas com a utilização de veículos de comunicação que proporcionam uma maior fluidez e colaboração à escrita, como no caso de mensagens instantâneas, tweets, ou comentários on-line, a determinação de uma unidade denominada “texto”, segundo os critérios da definição apresentada anteriormente, torna-se extremamente desafiadora. Resta, em última análise, ao pesquisador, baseando-se na literatura precedente e nos seus objetivos e perguntas de pesquisa, decidir como realizar de modo fundamentado as demarcações dos textos compilados para o seu corpus de estudo.

Os textos compilados para a investigação aqui apresentada seguem a definição proposta por Biber e Conrad (2009) e podem ser vistos como “unidades independentes e reconhecíveis”. Ainda assim, apesar de os textos do SMC representarem unidades comunicativas distintas, eles apresentam enormes diferenças em se tratando de seu tamanho e conteúdo: o maior arquivo compilado tem 49.732 palavras e é composto por toda uma seção de comentários on-line sobre um artigo publicado pelo The New York Times, enquanto o menor texto contém apenas sete palavras, e é um texto de parede que figura em Sally Mann: A Thousand

Crossings, a mais recente exposição de Sally Mann.

2.1.3. TIPOLOGIA E CRITÉRIOS PARA O DESENHO DO CORPUS

Do mesmo modo em que devemos ponderar sobre o significado de “texto”, ao apontá-lo como unidade de composição de um corpus para os estudos embasados pela Análise Multidimensional de base lexical, também devemos levar em consideração os diferentes tipos de corpus que podem ser compilados e suas

(34)

características e utilizações específicas. O quadro abaixo (Quadro 1) é baseado em Berber Sardinha (2004, p. 20-22) e tem por finalidade resumir os critérios subjacentes aos diferentes tipos de corpus que podem ser utilizados para pesquisas linguísticas:

QUADRO 1 – TIPOLOGIA DOS CORPORA

MODO

Falado Composto de porções de fala transcritas.

Escrito Compostos de textos escritos, impressos ou não.

TEMPO

Sincrônico Compreende um período de tempo. Diacrônico Compreende vários períodos de tempo. Contemporâneo Representa o período de tempo corrente. Histórico Representa o período de tempo passado.

SELEÇÃO

De amostragem 8

Composto por porções de textos ou de variedades textuais, planejado para ser uma amostra finita da linguagem como um todo.

Monitor Sua composição é reciclada para refletir o estado atual de uma língua. Opõe-se ao de amostragem.

Dinâmico ou orgânico

É um corpus monitor cujo crescimento ou diminuição são permitidos.

Estático Corpus de amostragem. Fixo em sua composição. Equilibrado9 Os componentes são distribuídos em quantidades

semelhantes.

CONTEÚDO

Especializado Os textos são de um tipo específico. Regional ou

dialetal

Os textos são provenientes de uma ou mais variedades sociolinguísticas específicas.

Multilíngue É composto por textos escritos em diferentes idiomas.

AUTORIA

De aprendiz Os autores dos textos não são falantes nativos. De língua nativa Os autores dos textos são falantes nativos. DISPOSIÇÃO

INTERNA

Paralelo Os textos são comparáveis, por exemplo original e tradução. Alinhado As traduções aparecem abaixo de cada linha original.

FINALIDADE

De estudo O corpus que se pretende descrever.

De referência Usado para fins de contraste com o corpus de estudo. De treinamento

ou teste

Construído para permitir o desenvolvimento de aplicações e ferramentas de análise.

Fonte: Adaptado de Berber Sardinha, 2004, p. 20-22

8 Do inglês, “sample corpus”. 9 Do inglês, “balanced corpus”.

(35)

Outros pontos relevantes levantados por Berber Sardinha (2004) a respeito da tipologia dos corpora tratam de questões como a pluralidade ou não da autoria dos textos (isto é, se foram escritos por diversos autores ou apenas um), a integralidade dos textos (se são integrais ou fragmentados), e em relação ao fechamento do corpus – em que se verifica a possibilidade de inclusão de novos textos.

O conhecimento de tais definições é de extrema importância para que o pesquisador consiga conhecer e estabelecer os parâmetros de seu próprio corpus de estudo e justificar suas escolhas, no que se refere à inclusão ou não de certos textos ou variedades textuais à amostra linguística em pesquisa. O corpus de estudo da pesquisa aqui apresentada, o Sally Mann Corpus (SMC), é um corpus diacrônico, composto por textos falados e escritos, de tipo especializado, por conter apenas um tipo específico de texto: aqueles referentes à Sally Mann e sua produção artística. O SMC é descrito de forma mais detalhada na seção 3.1 da Metodologia.

2.1.4. DESENHO DO CORPUS E REPRESENTATIVIDADE

Quando tomamos por pressuposto que o corpus é o objeto de estudo da Linguística de Corpus, torna-se imperativo que falemos sobre o processo de sua construção. Assim, esta parte tem a finalidade de explanar sobre o desenho e a coleta do corpus utilizado na pesquisa. Também trataremos da representatividade do corpus, uma questão que, segundo Biber (1993, p. 243), abrange não apenas o tamanho da amostra estudada (em número de palavras ou de textos), mas o quanto a amostra inclui a gama completa de variabilidade em uma população10. Nesse sentido, podemos dizer que a construção de um corpus deve estar calcada em bases sólidas, como condição imprescindível para que qualquer pesquisa da área de LC possa trazer

10 Do inglês: “Representativeness refers to the extent to which a sample includes the full range of

(36)

à tona resultados relevantes.

Ao se planejar um corpus de estudo, um equívoco comum entre muitos pesquisadores é a equiparação da representatividade de um corpus somente em relação a seu tamanho em palavras ou ao número de amostras (textos). Se a amostra não for representativa da população linguística ou do domínio que se deseja estudar, o tamanho da amostra não conseguirá compensar a má qualidade da construção do

corpus. Na pior das hipóteses, um corpus enorme, mas com falhas em sua construção,

poderá trazer a pesquisadores uma falsa confiança que pode, no limite, levá-los a fazer generalizações errôneas a respeito do uso da língua. Entretanto, vale ressaltar que, quando seguidas as devidas condições para a construção de um corpus representativo, quanto mais textos o pesquisador puder adicionar à sua amostra de estudo, mais expressivos serão os resultados de sua análise. Berber Sardinha (2004, p. 23) reforça a importância do tamanho do corpus, principalmente quando o objetivo é o de pesquisar a ocorrência de padrões menos frequentes no idioma:

A linguagem é um sistema probabilístico, no qual certos traços são mais frequentes que outros. No caso do léxico, pode-se diferenciar as palavras entre aquelas de maior frequência e as de menor frequência, sendo que a diferença entre elas é relativa. Assim, algumas palavras têm frequência de ocorrência muito rara e, para que haja probabilidade de ocorrerem no corpus, é necessário incorporar uma quantidade grande de palavras. Portanto, quanto maior a quantidade de palavras, maior a probabilidade de aparecerem palavras de baixa frequência.

Pode-se dizer, portanto, que a representatividade de um corpus de estudo seja medida por uma combinação de fatores e pode ser vista sob dois prismas diferentes (Egbert, 2019; Biber, 1993): um corpus pode ser representativo por apresentar uma grande variedade textual, de natureza situacional, ou uma grande variedade linguística, ou seja, a distribuição de elementos inerentes à linguagem, dentro do domínio estudado. Segundo Egbert (2019, p. 31), a representatividade de domínio determina o quão generalizável o corpus de amostragem é, em relação à população estudada. A representatividade linguística, por sua vez, determina se o corpus de estudo é apropriado para responder a perguntas de pesquisa de cunho linguístico.

(37)

Via de regra, todo o corpus que for representativo em relação ao domínio também será representativo linguisticamente, mas o oposto pode não acontecer. Também é interessante ressaltar que é mais frequente relacionar a representatividade linguística com o tamanho do corpus; enquanto a representatividade de domínio aproxima-se mais da variedade da amostragem de textos, isto é, a gama de tipos textuais presentes no corpus de estudo.

Há, entretanto, situações nas quais um corpus relativamente pequeno pode ser perfeitamente adequado para o estudo da variedade linguística ao qual se propõe. Tendo como premissa básica que sua elaboração tenha sido feita de modo adequado para representar a população estudada, há pelo menos dois casos nos quais um

corpus pequeno é considerado apropriado (GRIES, 2006, p.115): quando se estudam

as características linguísticas que apresentam uma alta frequência no registro representado no corpus de estudo e, como no caso da pesquisa descrita nesta dissertação, quando o corpus representa um domínio especializado. A justificativa para essa concessão, segundo o autor, é que “quando a definição da população se torna menor, a quantidade de variabilidade também diminui”. Assim, a representação de uma variedade textual ou característica torna-se possível mesmo com um corpus composto de poucos textos. Portanto, é possível dizer com convicção que o Sally Mann Corpus, contendo 555 textos e 764.776palavras, é representativo, por se tratar de um corpus especializado – sobre uma única fotógrafa e sua produção artística –, de cobertura ampla, uma vez que contém textos de diferentes registros, e diacrônico, abrangendo um período de mais de 30 anos.

Uma das maneiras que podem ser utilizadas para a descrição de um corpus é a sua classificação em relação ao modo como os textos que o compõe foram selecionados, de forma a revelar como a amostra de estudo se relaciona com a população total de interesse. Para que se consiga resultados relevantes, o corpus de estudo deve ser compilado de modo a representar o recorte de linguagem ao qual o pesquisador deseja dedicar seus estudos. Segundo Egbert (2019), a escolha dos textos que representarão esse recorte pode ser feita de maneira probabilística (aleatória) ou não-probabilística (por conveniência).

Quando um corpus é composto por amostragem probabilística, os textos componentes são escolhidos aleatoriamente entre a população estudada. Entretanto,

(38)

para que esse tipo de amostragem seja considerado eficiente de modo que o pesquisador consiga desenhar hipóteses a respeito do uso da linguagem em estudo, toda a população de dita variedade deve ser conhecida: todos os textos componentes da variedade textual estudada devem estar catalogados e disponíveis para consulta. Dessa forma, a porcentagem de textos escolhida aleatoriamente para compor o

corpus de estudo será, fundamentalmente, representativa desse corpus e permitirá

que o pesquisador elabore generalizações a respeito do uso da linguagem ou da variedade de texto estudada. A seleção da modalidade probabilística de amostragem pode apresentar certos desafios de ordem prática: são raros os casos em que se possa afirmar que toda a população estudada é conhecida; é possível citar como exemplo casos bem específicos, como a compilação de um corpus de estudo de todos os livros publicados por um só autor, ou todas as edições de uma revista publicadas em um período de dez anos. Para a maioria dos casos de utilização da linguagem natural, no entanto, traçar as delimitações definitivas de uma população torna-se tarefa impraticável: como conceber o todo domínio do português falado? Ou o de e-mails corporativos? Mesmo se o pesquisador estivesse disposto a compilar um imenso corpus com todas as conversas de alunos na cafeteria de uma universidade durante todo o semestre, as restrições temporais, espaciais e socioculturais fariam com que esse corpus, por maior que ele seja, ainda não fosse representativo da linguagem falada como um todo.

A segunda forma de seleção dos textos que podem compor o corpus de estudo é a por amostragem não-probabilística, ou por conveniência. Egbert (2019, p. 31-32) lembra que a palavra “conveniência” tem um significado específico no jargão dos estudos estatísticos – simplesmente, implica que a seleção de textos foi feita de modo não aleatório – e que, de maneira alguma, ela deveria apresentar qualquer conotação negativa de desleixo, ou falta de consistência, na compilação da amostra.

Forma mais apropriada ao estudo de variações do uso da linguagem cujos parâmetros de população não podem ser delimitados, a amostragem não-probabilística tem como premissa que sua representatividade se restringe à própria amostra, isto é, os resultados que emergirem do estudo do corpus compilado por amostragem não-probabilística, por mais relevantes que sejam, somente dizem respeito à própria amostra e não podem ser usados para se estabelecer

(39)

generalizações sobre a linguagem como um todo.

Para a seleção dos textos do SMC, foram levados em consideração tanto os fatores probabilísticos, quanto os não-probabilísticos: os textos componentes desse

corpus de estudo procedem de mais de 230 de fontes distintas, para que fosse

garantido que múltiplas narrativas sobre Sally Mann e sua obra fossem representadas no corpus. Entretanto, alguns limitadores, como a falta de disponibilidade de alguns artigos mais antigos em formato legível por computador, e o fato de que alguns de seus livros de fotografia não tivessem sido publicados no Brasil, fizeram com que a escolha sobre a inclusão de textos ao SMC também tivesse que passar, forçosamente, pelo crivo da conveniência e da disponibilidade do material para a análise.

2.1.5. A CRIAÇÃO DE CORPORA COMO UM PROCESSO CÍCLICO

Na compilação de corpora, é necessário aos pesquisadores executar esse passo metodológico como um processo contínuo, sempre levando em conta os objetivos de cada pesquisa, para possibilitar uma maior robustez nos resultados. Biber (1993) propõe um modelo para o desenho e compilação do corpus de pesquisa, conforme mostrado na Figura 1 abaixo:

FIGURA 1 – PROCESSO CÍCLICO PARA A CRIAÇÃO DE UM CORPUS

Fonte: Biber (1993, p. 256)11 11 Tradução minha. Investigação empírica piloto e análise teórica Desenho do corpus Compilação de uma parte do corpus Investigação empírica

(40)

Egbert (2019), em comentário sobre o processo cíclico proposto em Biber (1993, p. 256), sugere que o corpus não deve ser visto como um aglomerado de textos, mas sim como um conjunto que deve apresentar justificativas sistematizadas para sua compilação. Da mesma forma, independentemente da concepção inicial do pesquisador, não se deve esperar que tal desenho de corpus seja um planejamento estático. Tentativas adicionais deveriam ser feitas durante o processo, para adequar a amostra a um modelo ótimo que possa responder às perguntas de pesquisa apresentadas pelo pesquisador.

No primeiro passo da Figura 1, “Investigação empírica e análise teórica”, Biber reitera que a coleta de um corpus de estudo deve ser precedida de uma análise teórica: deve-se identificar os parâmetros desse corpus e estabelecer razões abalizadas para a escolha dos textos que o comporão. Tais razões, entretanto, nem sempre devem ser de natureza linguística: ao se coletar um corpus de estudo de textos jornalísticos, por exemplo, deve-se dar primazia aos veículos de comunicação mais representativos do gênero escolhido, ou a um período histórico específico, ou qualquer outra característica que atenda às definições previamente estabelecidas pelo pesquisador. Para que seja representativa, a amostra escolhida deve representar da melhor maneira possível toda a população de textos do gênero escolhido para a pesquisa. Essa afirmação é reiterada por Egbert (2019, p. 30) quando ele afirma que um corpus representativo é uma amostra consistente de textos que representa um domínio-alvo ou uma população linguística bem definidos.12

Para que a representatividade de um corpus de estudo seja avaliada, em primeiro lugar há de se considerar o tipo de pesquisa para a qual ele irá servir, na medida em que nenhum corpus consegue responder a quaisquer perguntas de pesquisa. Assim, um corpus perfeitamente adequado para um tipo de investigação pode não servir a um propósito distinto (EGBERT 2019, p. 33).

Depois de propor estabelecer os objetivos da pesquisa baseada em corpus, Biber (1993) sugere, como segundo passo, o “Desenho do corpus” (Figura 1), que diz respeito à escolha dos textos que comporão a amostra estudada. A decisão de inclusão ou exclusão de textos é abalizada por parâmetros tanto linguísticos e

12 Do inglês: "…a representative corpus [is] a principled sample of texts that represent a well-defined

(41)

metodológicos da própria Linguística de Corpus, quanto da competência das diferentes áreas de conhecimento que utilizam os pressupostos da LC como ferramentas de investigação.

Em seguida, no terceiro passo sugerido por Biber (1993), um corpus piloto é criado com base nas perguntas de pesquisa e nos parâmetros estabelecidos nos passos anteriores e, no passo seguinte, o corpus piloto passa por uma investigação empírica com o propósito de verificar se os parâmetros estabelecidos para a compilação do corpus de estudo atendem às necessidades da pesquisa ou devem ser modificados. Algumas partes desse processo podem ocorrer continuamente, até que se obtenha um corpus com a robustez necessária para desejavelmente responder às perguntas de pesquisa, com a fiabilidade esperada.

Egbert (2019, p.36) tomou como base a representação esquemática cíclica de Biber (1993) para a construção de um corpus de pesquisa e sugeriu desdobrá-la em 9 etapas:

1. Estabelecer (e projetar) os objetivos e o planejamento da pesquisa 2. Definir o domínio (a população)

3. Desenhar o corpus 4. Coletar a amostra

5. Fazer a anotação no corpus

6. Avaliar a representatividade do corpus em relação ao domínio 7. Avaliar a representatividade linguística

8. Repetir os passos 3-5, se necessário 9. Criar relatório13

Entre as principais diferenças entre o processo cíclico de quatro passos de Biber (1993) e as nove etapas sugeridos por Egbert (2019), há algumas sugestões pertinentes. Por exemplo, na primeiro etapa de Egbert (2019), “Estabelecer (e

projetar) os objetivos e o planejamento da pesquisa”, além de ressaltar a importância

do estabelecimento de objetivos claros de pesquisa para a subsequente compilação do corpus, o autor preconiza a projeção de objetivos adicionais para o corpus, para

13 Tradução minha, do inglês: "1. Establish (and project) research objectives and design / 2. Define

the target domain (population) / 3. Design the corpus / 4. Collect the sample / 5. Annotate the corpus / 6. Evaluate target domain representativeness / 7. Evaluate linguistic representativeness / 8. Repeat steps 3-5, if necessary / 9. Report".

Referências

Documentos relacionados

• a família como aporte simbólico, responsável pela transmissão dos significantes da cultura boliviana, que marca o lugar desejante de cada imigrante nos laços sociais. Na

PUC-Campinas - Pontifícia Universidade Católica de Campinas PUC-SP - Pontifícia Universidade Católica de São Paulo São Camilo - SP - Centro Universitário São Camilo São Judas

Entendemos que o estudo dos conhecimentos mobilizados pelos alunos relacionados ao valor posicional e, em particular, ao número zero no SND seja de fundamental importância para

1º Para a compor esta peça publicitária foram utilizadas fotografias de produção jornalística. 2º A foto do garoto encostado na bandeira nacional foi tirada no antigo lixão da

O imperativo presente da voz ativa, apenas na segunda pessoa do singular e do plural, é formado tomando-se para a segunda pessoa do singular o tema puro do verbo,

Opcional de quarto ampliado, aqui representado, deve ser escolhido no ato da assinatura do Contrato de Promessa de Compra e Venda, e a disponibilidade de execução do mesmo

A pesquisa apresenta a comparação entre as diferentes regulamentações existentes relacionadas a auditoria contábil no mercado de capitais, na abertura de capital, emissão

Avraham (Abraão), que na época ainda se chamava Avram (Abrão), sobe à guerra contra os reis estrangeiros, livrando não apenas seu sobrinho Lot, mas também os reis