PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO (PUC-SP)

(1)

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO (PUC-SP)

BÁRBARA SOARES DA SILVA DIAS

Representações do ser humano no Google Books: uma perspectiva da Linguística de Corpus sobre os estágios da vida

DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

SÃO PAULO 2019

(2)

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO (PUC-SP)

BÁRBARA SOARES DA SILVA DIAS

Representações do ser humano no Google Books: uma perspectiva da Linguística de Corpus sobre os estágios da vida

DOUTORADO EM LINGUÍSTICA APLICADA E ESTUDOS DA LINGUAGEM

Escritos parciais submetidos à Defesa de Tese à Pontifícia Universidade Católica de São Paulo, como exigência do Programa de Linguística Aplicada e Estudos da Linguagem desta conceituada Pós-Graduação, orientada pelo Prof. Dr. Tony Berber Sardinha.

SÃO PAULO 2019

(3)

AUTORIZAÇÃO

Autorizo a reprodução total ou parcial deste trabalho, por qualquer meio convencional ou eletrônico, para fins de estudo e pesquisa, desde que citada a

fonte.

FICHA CATALOGRÁFICA

Dias, Bárbara Soares da Silva.

Representações sociais do ser humano no Google Books: uma perspectiva da Linguística de Corpus sobre os estágios da vida / Bárbara Soares da Silva Dias. 99 páginas.

Escritos submetidos à Defesa de Tese à Pontifícia Universidade Católica de São Paulo, como exigência do Programa de Linguística Aplicada e Estudos da Linguagem desta conceituada Pós-Graduação. Orientador: Prof. Dr. Tony Berber Sardinha.

Referências Bibliográficas: p. 96.

Palavras-chave: Sentiment Analysis, Linguística de Corpus, Google Books, Representação Social.

(4)

Banca Examinadora:

__________________________________________ Orientador, Prof. Dr. Tony Berber Sardinha (PUCSP)

__________________________________________ Prof.ª Dra. Renata Souza Condi

__________________________________________ Prof.ª Dra. Cristina Mayer

__________________________________________ Prof.ª Dra. Zuleica Camargo

__________________________________________ Profª Dra. Sandra Madureira

(5)

AGRADECIMENTO (CAPES)

Agradeço à Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES) pela bolsa concedida, desde o primeiro semestre do curso, e que me

proporcionou a realização deste curso de Doutorado. Processo #773985 (Portal PUCSP)

(6)

AGRADECIMENTOS

Eu quero agradecer em especial à CAPES por conceder-me esta bolsa de estudos e ao meu orientador, Professor Tony, que, desde 2011, tem pacientemente permitido que eu pertencesse a um hall extraordinário de pesquisadores e orientandos tão magníficos e inteligentes quanto o próprio. Agradeço ao Professor Tony ainda por toda a paciência, humildade e olhar cuidadoso para os meus interesses de pesquisadora e também limitações da mesma. Agradeço ao grupo do GELC, cada membro por tecer conselhos, instruções e auxílios sempre que se fez necessário ao longo do estudo. Dedico agradecimento especial à banca de defesa, examinadores ímpares às quais o sentimento de gratidão será pequeno perto do gesto de feedback pontual, firme e, sempre humano comigo.

Especial para mim é também agradecer a Jesus, a quem eu sigo e sirvo e o qual devo minha devoção por sempre ter colocado pessoas ao meu redor que possibilitassem o cumprir de tudo. Agradeço ao meu pai Cláudio, minha mãe Ilma e minha irmã Andressa por apoiarem meus sonhos, agradeço ao Heberty por ter entrado na minha vida e, ter dado a mim a motivação e apoio que nunca havia antes tido em alguém. Agradeço ao José Carlos Pessoti que me auxiliou com as infinitas planilhas Excel enquanto eu processava meus dados. Agradeço à Mariliane, minha amiga-irmã quem não me deixou de lado em nenhum momento de precisão.

(7)

RESUMO

O trabalho que se apresenta foi motivado pela necessidade de compreender as representações do ser humano nas diversas fases da vida. As fases da vida foram operacionalizadas por meio dos seguintes itens lexicais: man, woman, adolescent,

adolescence, adult, boy, girl, child, elderly, kid, teen e teenager (bem como suas

formas plurais). Os dados da análise consistiram nas publicações disponibilizadas pelo Google Books no período de 1800 a 2008 (i.e., 208 anos), que somam cerca de meio trilhão de palavras. Para tanto, foram realizadas diversas análises dos ngramas (sequências de palavras adjacentes) formados por essas palavras na base de dados

Google Books Ngrams. a pesquisa fundamenta-se na Linguística de Corpus, por meio

da qual foi possível verificar os padrões de uso dessas palavras bem como a variação do uso desses itens ao logo do tempo. O estudo compreendeu análise quantitativa, primeiramente, e qualitativa, posteriormente, por meio da interpretação da temática apontada pelo léxico, pela leitura e análise de textos disponibilizados pela base do

Google Books. A partir da análise dos padrões e da variação temporal de uso, foram

apontadas as representações emergentes de cada item investigado. Com base nessa análise, foi possível detectar a introdução, presença e duração das representações, sendo possível verificar como o ser humano tem sido representado pela linguagem (em inglês) nos últimos três séculos. Além dos resultados obtidos, a presente pesquisa salienta o poder de análise histórica baseada em grandes quantidades de dados textuais (big data).

Palavras-chave: Linguística de Corpus; Google Books, Representação Social,

(8)

ABSTRACT

The present work was motivated by the need to understand social representations of human being in different phases of life. The life phases were performed through the following lexical items: man, woman, adolescent, adolescence, adult, boy, girl, child,

elderly, kid, teen and teenager (as well as their plural forms). The data from the

analysis consisted of the publications made available by Google Books in the period from 1800 to 2008 (i.e., 208 years), amounting to about half a trillion words. For this purpose, several analyses of the ngrams (sequences of adjacent words), formed by these words in the Google Books Ngrams database, were performed. The research is based on Corpus Linguistics, which allowed us to verify the patterns of use of these words as well as their usage variation over time. The study included, first, quantitative and then qualitative analysis, through the interpretation of the theme pointed out by the lexicon and affected by the reading and analysis of texts made available by the

Google Books database. By analyzing the patterns and the temporal variation of use,

the emerging representations of each investigated item were identified. Based on this analysis, it was possible to detect the introduction, presence and duration of the representations, and it was possible to verify how human beings have been represented by language (in English) in the last three centuries. In addition to the obtained results, this research highlights the power of historical analysis based on large amounts of textual data (big data).

Key-words: Corpus Linguistics; Google Books; Social Representation; Sentiment Analysis.

(9)

A Deus, aos meus pais, Cláudio e Ilma, com amor.

Não tudo, mas alguma coisa depende da idade que temos agora e do jeito que temos de nos lembrarmos das idades que tivemos. Começamos por dizer "quando eu era novo" - mas nós nunca fomos simplesmente novos.

(10)

SUMÁRIO INTRODUÇÃO ... 12 1. 1 FUNDAMENTAÇÃO TEÓRICA ... 15 1.1.Linguística de Corpus ... 15 1.2.Representações ... 22 2. METODOLOGIA DE PESQUISA ... 24 2.1.Corpus de pesquisa ... 24 2.2.Ferramentas de análise ... 24 3. Procedimentos ... 25

3.1.Google Books N-Gram Database ... 25

3.2.Termos de busca ... 28

3.3.Interface do Google Books N-Gram Database da Brigham Young University ... 30

3.4.Google Books N-Gram Viewer ... 33

3.5.Cálculo da frequência normalizada de uso por milhão de palavras ... 35

3.6.Etiquetagem semântica dos colocados ... 38

3.7.Análise das representações ... 46

3.8.Análise da variação temporal de ocorrência dos colocados ... 47

3.9.Valoração ... 47

4. Resultados ... 50

4.1.Representações dos termos ... 50

4.2.Termos relacionados à infância ... 50

4.2.1. Termos não-marcados por gênero ... 50

4.2.1.1. Child ... 50

4.2.1.2. Children ... 52

4.2.1.3. Kid ... 55

(11)

4.2.2. Termos femininos ... 58 4.2.2.1. Girl ... 58 4.2.2.2. Girls ... 60 4.2.3. Termos masculinos ... 62 4.2.3.1. Boy ... 62 4.2.3.2. Boys ... 64

4.2.4. Termos relacionados à adolescência ... 66

4.2.4.1. Termos não-marcados por gênero ... 67

4.2.4.1.1. Adolescent ... 67 4.2.4.1.2. Adolescents ... 68 4.2.4.1.3. Teen ... 69 4.2.4.1.4. Teens ... 71 4.2.4.1.5. Teenager ... 72 4.2.4.1.6. Teenagers ... 73

4.2.5. Termos relacionados à idade adulta ... 74

4.2.5.1. Termos não-marcados por gênero ... 74

4.2.5.1.1. Adult ... 74 4.2.5.1.2. Adults ... 76 4.2.6. Termos femininos ... 78 4.2.6.1. Woman ... 78 4.2.6.2. Women ... 80 4.2.7. Termos masculinos ... 82 4.2.7.1. Man ... 82 4.2.7.2. Men ... 84

4.3.Comparação das representações ... 85

4.3.1. Comparação das representações com base em gênero ... 85

(12)

4.4.Valoração das representações ... 89 CONSIDERAÇÕES FINAIS ... 92 REFERÊNCIAS ... 96

(13)

INTRODUÇÃO

Em 2014, observei crianças e adolescentes no departamento de Educação e Saúde da Universidade Federal do Estado de São Paulo em curso de Atualização Profissional para não médicos, no intuito de perceber o que – do ponto de vista dessa faixa etária – essas fases da vida (criança, jovem, adolescente, idoso, etc.) poderiam representar para os pacientes. Em seguida, já ingressada no Programa de Pós-Graduação em Linguística Aplicada e Estudos da Linguagem (LAEL), sob a orientação do Professor Tony Berber Sardinha, encontrei na Linguística de Corpus a base para investigar as diversas representações sociais do ser humano ao longo do tempo.

Esta tese relata um estudo cujo objetivo é tratar da investigação dos padrões linguísticos mais frequentes de palavras identificadoras do ser humano em inglês, mais especificamente man (homem), woman (mulher), adolescent (adolescente),

adolescence (adolescência), adult (adulto), boy (menino), girl (menina), child

(criança), elderly (idoso), kid (criança), teen (adolecente) e teenager (adolescente), bem como suas formas plurais, a partir de dados do Google Books que cobrem o período de 1800 a 2008.

Além de identificar os padrões dessas palavras, o presente estudo visou a verificar se há mudanças em relação a esses padrões ao longo das vinte e uma décadas do estudo. Sendo assim, pretendeu-se responder as seguintes perguntas de pesquisa:

1) Quais representações podem ser identificadas em relação aos termos pesquisados?

2) Há diferença entre as representações dos termos masculinos e femininos? E entre os infantis, adolescentes e adultos?

3) Há diferença entre os termos em relação à valoração (carga positiva e negativa)?

(14)

De acordo com Stubbs (1996, p.158), os padrões de uso dos itens lexicais podem sinalizar a representação que esses itens assumem na sociedade:

as maneiras recorrentes de falar não determinam o pensamento. Na realidade oferecem representações convencionais ou familiares de pessoas e acontecimentos por meio do filtro e da cristalização de ideias além de prover significados pré-fabricados por meio dos quais estes podem ser facilmente captados e veiculados. (Tradução da autora)1

O estudo apresentado em Stubbs (1996) analisou algumas das principais manifestações culturais britânicas em torno de palavras como English, Scottish e

British. O autor buscou as colocações mais frequentes dessas palavras, ou seja,

padrões linguísticos formados pela presença de duas palavras próximas uma à outra (geralmente separadas por até quatro outras palavras), como por exemplo ‘British Empire’. O autor utilizou um subconjunto do corpus Cobuild como fonte dos dados analisados, com 130 milhões de palavras – das quais praticamente 70% provêm de registros jornalísticos, livros (ficção e não ficção) e conversação em língua inglesa. Stubbs (1996) mostra como coocorrências lexicais identificadas em corpora podem ser indícios ou marcas de representações, tendo motivado, assim, a presente pesquisa.

Há outros estudos em Linguística de Corpus sobre representações que também estabelecem a mesma relação entre o uso frequente de determinados padrões linguísticos e a presença de representações, como Baker (2014), Baker & Potts (2013) e Baker e Ellece (2011).

Embora já haja estudos com base em corpora sobre representações, não há pesquisas que investiguem as representações em torno de itens lexicais relativos ao ser humano. Uma vez que não há precedentes de estudos dentro da Linguística de

Corpus dedicados à investigação da representação social em relação ao ser humano

a pesquisa aqui relatada pretende preencher esta lacuna.

1_{“Such recurrent ways of talking do not determine thought, but they provide familiar and conventional}

representation of people and events, by filtering and crystallizing ideas, and by providing pre-fabricated means by which ideas can be easily conveyed and grasped.”

(15)

Desta forma, o restante desta tese comporta os seguintes capítulos, nesta ordem: a fundamentação teórica, que é centrada em torno da Linguística de Corpus e representações; a metodologia empregada na pesquisa; resultados, em que são apresentados os resultados que permitiram responder as perguntas de pesquisa; por fim, as considerações finais, que retomam os achados principais, apontam lacunas e possíveis direções futuras.

(16)

1. 1 FUNDAMENTAÇÃO TEÓRICA

Neste capítulo, são apresentados os pressupostos que constituem o panorama teórico-metodológico da pesquisa e, para tanto, o capítulo está subdividido em duas seções. A primeira parte versa sobre a Linguística de Corpus (LC), sua definição e conceitos principais. A segunda parte apresenta considerações acerca de representações.

1.1. LINGUÍSTICA DE CORPUS

Conforme mencionado na Introdução desta tese, sendo a Linguística de

Corpus a força-motriz para engendrar os avanços de método e teoria empregados

neste estudo, têm-se que, nas palavras de Berber Sardinha (2004, p. 3), a conceituação inicial da Linguística de Corpus, fundamentalmente é:

A área da linguística que se ocupa da coleta e da exploração de corpora, ou conjuntos de dados linguísticos textuais coletados criteriosamente, com o propósito de servirem para a pesquisa de uma língua ou variedade linguística. Como tal, dedica-se à exploração da linguagem por meio de evidências empíricas, extraídas por computador.

Similarmente, são muitos os autores que definem a Linguística de Corpus. Alguns exemplos de importantes vozes são Sinclair (1991), Stubbs (1993), McEnery e Wilson (1996), Biber et al. (1998), Kennedy (1998), Hunston (2002) e Berber Sardinha (2004). A Linguística de Corpus pode ser entendida como o estudo da linguagem baseado em exemplos da língua usada na ‘vida real’ (McENERY e WILSON, 1996, p.1-2).

Assumidamente no tangente à importância mais que atual desta área da Linguística Aplicada, Biber (2010, p. 160) coloca que, a Linguística de Corpus é muito mais do que uma abordagem metodológica; as inovações metodológicas possibilitaram que pesquisadores façam perguntas de pesquisa até então inéditas2_.

Biber (2010, p. 161) sugere ainda que a Linguística de Corpus oferece um suporte robusto para a visão empírica de métodos quantitativos e contribui cada vez

(17)

mais para a noção de que o principal contribuição da Linguística de Corpus está, de fato, em ser capaz de documentar o uso de diversas características linguística, incluindo a variação de seu uso.

Há muitas definições de corpus, mas todas centram-se na ideia de que um corpus é uma coletânea de textos em formato eletrônico produzidos em condições reais de uso. Segundo Sinclair (2005: 4), corpus na perspectiva da Linguística de

Corpus é:

conjunto de partes de uma linguagem em texto, em formato eletrônico, selecionado de acordo com critérios externos a ser representados; uma linguagem ou variedade linguística como fonte de dados para pesquisa linguística. (tradução minha)3_.

Para Trask (2004), corpus é “um conjunto de textos escritos ou falados numa língua, disponível para análise”. Para Galisson & Coste (1983), corpus é um conjunto finito de enunciados tomados como objeto de análise reunidos para servir de base à descrição. Já para Dubois et al. (1993), corpus é um conjunto de enunciados a partir do qual se pode descrever a gramática de uma língua. Na concepção de Ducrot e Todorov (2001), corpus é um “conjunto, tão variado quanto possível, de enunciados efetivamente emitidos por usuários da referida língua em determinada época”.

Um corpus pode ser sincrônico ou diacrônico. No primeiro caso, a temporalidade dos dados não é levada em conta, isto é, o período de tempo em que os textos foram produzidos não é uma variável do estudo. No segundo caso, a variável tempo é levada em conta. Neste estudo, o corpus empregado é diacrônico, pois o ano e a década em que os padrões lexicais foram publicados são variáveis do estudo.

Berber Sardinha (2004) aponta como um dos elementos centrais da conceituação da LC, a visão probabilística da linguagem, e afirma que “a visão da linguagem como sistema probabilístico pressupõe que, embora muitos traços linguísticos sejam possíveis teoricamente, não ocorrem com a mesma frequência” (BERBER SARDINHA, 2004, p. 31).

3_{a collection of pieces of language text in electronic form, selected according to external criteria to represent, as far as possible, a language or} language variety as a source of data for linguistic research (Sinclair, 2005:4)

(18)

Ainda nos conceitos da Linguística de Corpus vê-se na padronização lexical, foco central da pesquisa de Sinclair (1991), uma propriedade por meio da qual é possível observar como certas palavras são empregadas tipicamente na fala e na escrita e quais sentidos exprimem.

Já a frequência de coocorrência entre itens lexicais na LC, tem permitido que os linguistas de corpus analisem os itens de acordo com fenômenos de padrões de associações conhecidos por colocações, coligações e prosódias semânticas.

Na Linguística de Corpus, tem-se como base o estudo de padrões de linguagem. Assim, segundo Berber Sardinha (2004, p.39), os padrões podem ser definidos como a associação entre palavras e estruturas. A importância da padronização reside no fato de que certos significados emanam dessa associação e, portanto, o estudo da padronização envolve o estudo dos significados da língua em uso.

Neste estudo, efetuamos a análise dos padrões de linguagem de um conjunto de palavras, em inglês, referentes ao ser humano e, a partir desses padrões tentamos verificar as representações associadas às diferentes formas de se referir ao ser humano ao longo do tempo. Um padrão pode ser identificado se uma combinação de palavras ocorre com relativa frequência e se há um significado associado.

Segundo Berber Sardinha (2004:40), a pesquisa com corpus referente à padronização busca responder questões como: (a) quais são os padrões lexicais os quais a palavra faz parte?; (b) a palavra associa-se com outros sentidos específicos?; (c) em quais estruturas ela aparece?; (d) há correlação entre uso da palavra e estruturas as quais ela participa?; (e) a palavra está associada com a posição na organização textual? Nesta pesquisa, focamos os pontos (a) e (b).Quanto ao conceito de padronização na LC, têm-se em Huston e Francis (1998, p. 59-70) que “um padrão é uma fraseologia frequentemente associada a uma palavra, particularmente em relação às preposições, grupos e orações que seguem aquela palavra”. Especificamente, Huston e Francis (1998) definem tais padrões como todas as palavras e estruturas que são regularmente associadas à palavra e contribuem para seu sentido. Um padrão pode, pois, ser identificado se uma combinação de palavras ocorrer com relativa frequência, se ela depender de uma escolha lexical específica, e se houver um sentido associado a ela.

Padronização é definida, ainda, como a “regularidade expressa na recorrência sistemática de unidades coocorrentes de várias ordens lexical, gramatical, sintática”,

(19)

(BERBER SARDINHA, 2004, p. 31). Hunston (2000), por sua vez, define padronização como todas as palavras e estruturas, regularmente associadas, que contribuam para o significado desta. Um padrão pode ser identificado se uma combinação de palavras ocorre com relativa frequência, se é dependente de uma palavra específica, e se há um significado claro associado a ela. A padronização está ligada ao princípio idiomático (idiom principle): segundo Sinclair (1987:320), o usuário da língua possui “um grande número de frases pré ou semiconstruídas que se constituem em escolhas únicas muito embora pareçam analisáveis em segmentos.”

Ainda segundo Sinclair (1987), ao passo que se verifica um padrão léxico-gramatical, compreende-se que haja um espaço entre léxico e sintaxe, é dizer, uma dicotomia desconstruída entre léxico e gramática. Por sua vez, Firth (1957), já havia alertado para a necessidade de descrever os sentidos a partir do uso: “julgar uma palavra pela sua companhia”. Esse princípio garante que as “palavras não ocorram ao acaso, em um texto” (SINCLAIR, 1991, p.110). Uma das manifestações do princípio idiomático é a colocação, que é definida como a “ocorrência de duas ou mais palavras em uma curta ‘distância’ uma da outra em um texto”, de acordo com Sinclair (1991, p.170). Firth (1957)4_{postula colocação como parte da significação de uma} palavra se encontrar nas palavras que coocorrem em proximidade.

Segundo Berber Sardinha (2004, p. 41), há três maneiras de definir colocação, conforme mostra o Quadro 1.

Quadro 1: Conceito de Colocação

a) “textual: colocação é a ocorrência de duas ou mais palavras distantes um pequeno espaço umas das outras.”;

b) “psicológica: o sentido ‘colocacional’ consiste das associações que uma palavra faz por conta do sentido de outras palavras que tendem a ocorrer no

seu ambiente.”;

c) “estatística: colocação tem sido o nome dado à relação que um item lexical tem com itens que aparecem com probabilidades significativa no seu

contexto (textual).”

(20)

Neste estudo, será utilizado o conceito de colocação textual, na medida em que serão tidas como colocadas palavras que ocorreram lado a lado nos textos.

Outro conceito importante para a LC é o de coligação, que é a companhia gramatical que a palavra mantém e as posições que ela ‘prefere’ (HUNSTON, 2000). Firth (1957) definiu coligação como a relação gramatical entre itens gramaticais. Hoey (2006)5_{a define como uma relação entre uma palavra e um padrão gramatical.} Segundo Hoey (2006), coligação é a tendência de um item lexical de se relacionar (ou não) com uma determinada função gramatical.

Há uma terceira associação importante reconhecida na LC, a prosódia semântica. Esse padrão reconhece o fato de certas palavras “prepararem o ouvinte, ou o leitor, para o conteúdo semântico que está por vir, da mesma maneira a qual a prosódia, na fala, indica para o interlocutor que tipos de sons estão por vir a seguir” (BERBER SARDINHA, 2004, p. 40).

Nesta pesquisa, propomos o conceito de ‘valoração’ para mensurar a prosódia semântica. Normalmente, a prosódia semântica é analisada qualitativamente, por meio da verificação dos usos da palavra. Geralmente essa análise é conduzida por meio do exame de itens individuais e não tem como objetivo atribuir um índice numérico aos itens analisados Nesta pesquisa, por outro lado, precisamos analisar centenas de itens e portanto buscamos uma maneira de empreender a análise de modo automático, quantitativamente. Assim, baseamo-nos na Análise de Sentimento (Sentiment Analysis), por meio da qual foi possível atribuir um valor numérico a cada um dos itens investigados. Assim, valoração, nesta pesquisa, significa uma medida do valor, em termos de positividade ou negatividade, que uma palavra possui tendo em vista seu uso. Por exemplo, a palavra inglesa ‘wretched’ (miserável, amaldiçoado, maldito, etc.) possui valoração geralmente negativacom um um índice de valoração de -3.43, segundo Hamilton et al. (2016). O índice, sendo negativo, significa que o item de valoração negativa, como em:

‘The fields were gradually covered with pitheads, foundries, factories and

workshops and rows of wretched hovels for the men, women and children who worked in them: a sprawling, unplanned, industrial conurbation that

5_{Trecho original em Hoey (2006), traduzido pela autora: The relation holding between a word and a} grammatical pattern, thus creating Midway relation between grammar and collocation.

(21)

was gloomy by day, fearsome by night’ de David Lodge, na obra Changing Places. (1975).

Os campos foram gradualmente cobertos de poços de minas, fundições, fábricas e oficinas, e filas de casebres miseráveis para os homens, mulheres e crianças que trabalhavam ali: uma aglomeração disseminada e sem planificação de detritos industriais e urbanos que era sombria durante dia e assustadora durante a noite. (Tradução de Helena Cardoso., 1995) tendo como fonte o Corpus COMPARA,

https://www.linguateca.pt/COMPARA.

A Análise de Sentimento é uma linha de pesquisa em Linguística Computacional e Processamento de Linguagem Natural que tem como objetivo mensurar a valoração dos ‘sentimentos’ expressos na linguagem. Uma das aplicações principais dessa linha é na análise da valoração de textos de redes sociais, em tempo real, ou seja, à medida em que os textos postados nas redes vão sendo produzidos. Por exemplo, uma empresa ou partido político pode ter interesse em saber como o público está reagindo a algum produto, imagem corporativa ou campanha política nas redes sociais, em termos de se o público está reagindo de modo favorável ou não a essas questões. Por meio de algoritmos computacionais, o ‘sentimento’ expresso pelo público nas postagens é mensurado, e o resultado é mostrado em termos de quão positiva ou quão negativa está sendo a reação.

Em Hamilton et al. (2016), de acordo com o trecho originalmente em Língua Inglesa, o algoritmo desenvolvido pelos autores foi o SENTPROP, que retorna um índice de valoração para cada palavra estudada. A importância do estudo de Hamilton et al. (2016) para esta pesquisa é o fato de os índices de valoração da pesquisa terem sido disponibilizados na forma de dicionários (listagens) prontos. Os autores empregaram o corpus histórico COHA (Corpus of Historical American English), com cerca de 400 milhões de palavras para mensurar a polaridade positiva ou negativa do léxido de língua inglesa. Assim, os dicionários de polaridade vieram indexados pela época em que o item foi usado. Para nossos propósitos, o fato de existir um dicionário de análise de sentimento discriminado por período de tempo é importante, uma vez que nossos dados também são discriminados temporalmente.

O método empregado para cálculo da valoração é baseado em uma técnica computacional chamada de 'random walk', que parte de uma lista pré-determinada de palavras positivas e negativas. O algoritmo parte de uma dessas palavras e 'caminha'

(22)

pelo texto até encontrar alguma das outras palavras (positivas ou negativas) da lista inicial.

Assim que encontra uma delas, continua caminhado até encontrar a próxima e assim em diante. À medida em que vai 'caminhando' pelo texto, palavra a palavra, vai calculando a frequência das palavras que encontra e a distância entre elas. Ao final da 'caminhada', calcula um valor de positividade ou negativade para cada palavra encontrada. Por exemplo, a Figura 1 mostra um 'caminhada' a partir da palavra 'hate' (odiar, ódio) e da palavra 'love' (amar, amor):

Figura 1: Palavra hate & palavra love.

Fonte: Hamiton et al. (2016), p. 4.

A figura acima demonstra que o algoritmo, partindo de 'hate', encontrou 'dislike', 'abhor', etc., e partindo de 'love', encontrou 'adore' e 'idolize', nos textos. Com base na frequência de ocorrência e distância entre 'love' e 'adore', e entre 'hate' e 'dislike', por exemplo, o algoritmo calcula um índice para representar a valoração de 'adore' e de 'dislike', que não estavam na lista inicial.

Provavelmente, em textos em que vê-se a palavra 'love', também há a palavra 'adore' e naqueles em que existe 'hate' também existe 'dislike', portanto 'adore' recebe uma valoração positiva, congruente com a polaridade de 'love', que é positiva, e 'dislike', polaridade negativa', condizendo com 'hate'. O valor exato do índice depende

(23)

de uma série de cálculos que ultrapassa o objetivo desta pesquisa. O que nos interessa é a capacidade de mensurar a valoração de itens lexicais em inglês com base em léxicos ou dicionários criados a partir de corpora históricos, como são os nossos dados.

Preferimos usar o termo ‘valoração em vez de ‘sentimento’ porque não nos parecia que estivéssemos mensuarando o sentimento dos usuários ao usar os itens lexicais analisados. O termo ‘sentimento’ nos pareceria mais adequado para uma pesquisa que envolvesse, por exemplo, textos de redes sociais, em que o foco é o sentimento (positivo, negativo) expresso pelo usuário da rede em sua postagem.

1.2. REPRESENTAÇÕES

Segundo Moscovici (1988, p. 41):

Representações sociais dizem respeito aos conteúdos de

raciocínio rotineiro e o armazenamento de ideias que oferecem coerência às crenças religiosas, ideias políticas e conexões que nós

criamos espontaneamente da mesma forma que o ar que respiramos. Torna-se possível assim, classificar pessoas e objetos para comparar e

explicar comportamentos e objetivar isto como parte integrante de nosso contexto social. Enquanto que as representações são com frequência localizadas nas mentes dos homens e das mulheres, estas podem também com frequência ser encontradas no mundo e, conforme

são, ser examinadas separadamente. 6

Segundo Stubbs (1996), as representações que circulam na língua podem ser verificadas por meio da análise corpora. O autor apresenta um estudo baseado em

corpus que teve como objetivo identificar as representações de itens como ‘British’ e

‘English’ em um corpus de notícias de jornal em inglês dos anos de 1990. Os resultados mostraram que ‘British’ às vezes possui uma representação neutra, como é o caso do adjetivo associado a nomes de instituições e corporações, tais como Airways e Telecom. O mesmo não ocorre quando o autor analisa o termo English,

6_{Social representations concern the contents of everyday thinking and the stock of ideas that gives coherence}

to our religious beliefs, political ideas and the connections we create as spontaneously as we breathe. They make it possible for us to classify persons and objects, to compare and explain behaviors and to objectify them as parts of our social setting. While representations are often to be located in the minds of men and women, they can just

(24)

que está associado, a termos mais estereotipados e negativos, como eccentrics,

heritage, clubs, cricket, quintessentially e traditional, além da verificação da presença

de palavras de um teor mais neutro, como language, literature, history e national. O ponto mais importante desse estudo é que as representações podem ser identificadas por meio da análise desta abordagem de padronização lexical com base em corpora.

O autor conclui que “nomear e rotular são ferramentas ideológicas poderosas” (pág. 70) e, ao fazer uso da análise baseada em corpus, identificam-se rótulos direcionados a grupos diversificados e percepções que o representem, ou seja, rotular significa também categorizar e, isto pode estabelecer uma valoração positiva ou negativa. Há outros estudos que abordagem a utilização da análise de corpus para a identificação de padrões culturais, religiosos e políticos no discurso: Por exemplo, a representação relacionadas a grupos não nacionais, como como foi o caso de muçulmanos (Baker et al., 2013), ou de homossexuais (Baker, 2014) na imprensa britânica. Baker (2014) analisou a representação do Islamismo por meio do tablóide conservador britânico Daily Mail. Assim, seus resultados refletem como a representação dos muçulmanos acontecia na imprensa popular (Baker, 2005).

Por sua vez, Baker et al. (2013) utilizaram um corpus composto de 143 milhões de palavras de jornais do Reino Unido. Os 1256 colocados de Muslim foram agrupados pelos autores em categorias de acordo com os assuntos comumente percebidos, como conflito e violência (extremist, fanatic, terrorist), identidade étnica (community, country) e aspectos sociais (woman, man, girl, youth). Os resultados mostraram uma representação geralmente negativa dos muçulmanos na imprensa britânica da época em questão.

Para tornar a classificação dos colocados mais eficiente e objetiva, etiquetamos semanticamente os colocados dos nosso itens de estudo por meio do etiquetador semântico USAS, conforme descrito no capítulo de metodologia. Assim, superamos dois desafios da pesquisa em corpus nessa área: primeiramente, a classificação dos colocados em categorias semânticas, procedimento recomendável, segundo mostraram Baker et al. (2013); e em segundo lugar, a classificação automática dos colocados, a fim de permitir a pesquisa de milhares de colocados, como foi o caso aqui, de modo não-subjetivo e replicável.

A seguir é apresentada a metodologia de pesquisa, contendo dados, as ferramentas e os procedimentos de análise empregadas nesta tese.

(25)

2. METODOLOGIA DE PESQUISA

Neste capítulo serão apresentados os dados, as ferramentas, os procedimentos de análise empregadas nesta tese, a fim de possibilitar a resposta às perguntas de pesquisa:

1) Quais representações podem ser identificadas em relação aos termos pesquisados?

2) Há diferença entre as representações dos termos masculinos e femininos? E entre os infantis, adolescentes e adultos?

3) Há diferença entre os termos em relação à valoração (carga positiva e negativa)?

2.1. CORPUS DE PESQUISA

Os dados empregados nesta pesquisa tratam de listagens de ocorrências de bigramas encontrados nas publicações em língua inglesa indexadas pelo Google

Books. O Google Books é uma coletânea de milhões de publicações digitalizadas

pela empresa Google a partir dos acervos de bibliotecas ao redor do mundo. O formato desse banco de dados, bem como sua extensão, será explicado na seção sobre procedimentos. Já os bigramas são sequências de duas palavras colocadas lado a lado em um texto. Por exemplo: ‘Brazilian poet’, ‘young women’ e ‘American men’. Os bigramas são disponibilizados pelo site Google Books Ngrams, que também permite que o usuário faça buscas e produza gráficos de uso desses bigramas. Assim, estritamente falando, não lidados diretamente com um corpus de textos, pois os textos das publicações indexadas pelo Google Books não são disponibilizados para os usuários. O Google Books disponibiliza apenas os bigramas. Assim, nossos dados foram os bigramas, juntamente com sua frequência de ocorrência nas publicações em inglês indexadas entre 1800 e 2008.

2.2. FERRAMENTAS DE ANÁLISE

Foram empregadas as seguintes ferramentas nesta pesquisa, que são descritas na seção de procedimentos:

a. Interface da Brigham Young University para o Google Books N-Grams. Essa interface auxilia nas buscas no Google Books N-Grams.

(26)

b. Visualizador Google Books N-Gram Viewer. Essa interface online permite a visualização em forma de gráfico das ocorrências do n-gramas na base de dados Google Books N-Gram.

c. Etiquetador semântico USAS. Esse etiquetador online atribui etiquetas semânticas a cada item lexical submetido.

d. Listas de valoração lexical/sentiment analysis de Hamilton et al. (2016). Essas listas foram disponibilizadas por Hamilton et al. (2016) na web. Elas contém a avaliação da polaridade (positiva ou negativa) de milhares de itens lexicais, distribuídos nas décadas em que ocorreram nos corpora pesquisados por esses autores.

e. Script desenvolvido pelo professor orientador. Esse script, escrito em modo Unix Shell, executou todo o trabalho de preparação e de processamento dos dados.

3. PROCEDIMENTOS

3.1. GOOGLE BOOKS N-GRAM DATABASE

Os dados da pesquisa advêm do Google Books N-Gram Database. Esse recurso encontra-se disponível gratuitamente em:

http://storage.googleapis.com/books/ngrams/books/datasetsv2.html

Um n-grama trata de uma sequência de palavras, de tal modo que um unigrama é uma palavra, um bigrama é uma sequência de duas palavras, um trigrama, uma sequência de três palavras, um quadrigrama, de quatro palavras e um pentagrama, de cinco palavras. O Google Books oferece estas cinco opções.

No endereço web do Google Books N-Gram, encontram-se diversas opções de línguas para os n-gramas: inglês, espanhol, russo, etc. (não há no momento existente a opção para português). Para o idioma Inglês, existem as seguintes versões:

(27)

1. English version 20120701 2. English version 20090703

3. English One Million version 20090705 4. American English version 20120701 5. American English version 20090715 6. British English version 20120701 7. British English version 20090715 8. English Fiction version 20120701 9. English Fiction version 20090715

A interface de busca do Google Books disponibilizada pela Brigham Young

University (por meio do projeto de corpora online do professor Mark Davies) torna as

buscas mais rápidas e eficientes do que diretamente pelo Google Books Ngram. No entanto, essa interface não disponibiliza o acesso à coleção completa ‘English 20120701’, mas sim apenas a American English (itens 4 e 5 acima) e a British English (item 6 e 7 acima).

Como a opção referente à base de dados americanos é quase cinco vezes maior do que a referente à base de dados britânicos, optamos pela base de dados americanos, que corresponde à opção ‘American English (155 billion)’ na interface BYU do Google Books. Essa opção, na verdade, refere-se ao item 5 acima, American

English version 20090715 e não ao item 4, American English version 2012071.

Embora a ajuda da interface BYU não deixe claro qual das duas bases utilizou, os resultados indicam que se trata da base de 2009 e não da de 2012 porque os resultados mostram apenas até a década de 2000; se tivesse sido usada a base de 2012, os resultados mostrariam a década de 2010.

A versão 2009 e 2012 são diferentes não apenas em relação ao fato de que a versão 2012 tem três anos a mais de publicação, mas principalmente pelo fato de que a de 2012 aumentou consideravelmente o número de publicações e por conseguinte de palavras dos anos anteriores, como se percebe na tabela a seguir. Por exemplo, na versão 2009, havia pouco mais de 3 bilhões de palavras indexadas relativas ao ano de 2005; na versão de 2012, esse número aumentou em mais de três vezes, para mais de 10 bilhões de palavras. O mesmo ocorreu, em graus diferentes, com relação aos demais anos. Na linha ‘Total’, aparecem os totais de 1810 a 2009. Como se nota, o tamanho da base dobrou de tamanho entre a versão 2009 e a versão 2012.

(28)

Tabela 1: Comparação entre a quantidade de palavras da versão do Google Books N-Grams de 2009 e 2012, American English.

Ano 2009 2012 2005 3.043.824.240 10.419.437.975 2006 3.124.744.950 10.904.452.060 2007 3.242.955.303 11.401.015.419 2008 2.455.892.145 15.794.843.318 2009 321.421.830 16.545.375.555 Total 157.388.918.002 355.619.887.849

É importante ressaltar que os nomes das bases de dados no site do Google

Books N-Gram e na interface BYU refletem o local de publicação e não extamente a

variedade do inglês. Assim, as publicações constantes na opção ‘American English’ não são necessariamente escritas em Inglês americano, nem tampouco escritas por autores nativos do inglês americano, assim como as do inglês britânico não refletem puramente o inglês britânico nem autores britânicos. O que essas bases representam, na verdade, são publicações que foram indexadas como tendo sido publicadas nos EUA ou na Grã-Bretanha. Essa indexação em si é baseada nos dados registrados pelo Google Books a partir das bibliotecas nas quais as publicações foram escaneadas automaticamente, podendo conter incorreções, pois não há informação se os dados tiveram checagem manual posterior. Além disso, mesmo que o registro bibliográfico da base de dados seja fidedigno, um livro publicado na Grã-Bretanha pode ter sido escrito por um autor norte-americano e vice-versa, colocando em questão a representatividade do texto como sendo um exemplar de uma dessas variantes. Assim, não falaremos em termos de ‘inglês americano’ como sendo a variante estudada nesta pesquisa, mas apenas como ‘língua inglesa’.

No endereço web do Google Books N-Gram, o usuário pode baixar os arquivos correspondentes à versão escolhida. Para cada versão, os dados são oferecidos em centenas de arquivos textos comprimidos. Por exemplo, para a versão ‘English version 20120701’, existem 704 arquivos texto, nomeados pela primeira palavra do n-grama. Cada arquivo apresenta a seguinte composição:

Tabela 2: Amostra de arquivo-texto para versão Inglesa.

Composição Ano Frequência 1 Frequência 2

masculine unease 1996 8 6

(29)

Legenda: A listagem acima advém do arquivo referente a bigramas que se iniciam com as letras ‘ma’, presentes no seguinte link de arquivo:

http://storage.googleapis.com/books/ngrams/books/googlebooks-eng-all-2gram-20120701-ma.gz

A primeira coluna refere-se ao n-grama; no caso acima, ‘masculine unease’. A segunda coluna, ao ano em questão. A terceira coluna, ao número de ocorrências do n-grama. E a última coluna, ao número de publicações em que o n-grama ocorreu. Como se percebe, o Google Books N-Gram Database não contém os textos dos livros indexados pelo Google, mas apenas os n-gramas, devido a questões de direitos autorais. O site do Google Books, por sua vez, oferece ao usuário a busca no texto em si das obras indexadas, em https://books.google.com.

O arquivo em questão tem 14,54 GB de tamanho quando descomprimido e 2,16 GB de tamanho quando comprimido. A totalidade dos arquivos de bigramas ocupa cerca de 1.1 TB quando descomprimidos e 162 GB quando comprimidos. Devido a esse tamanho, a busca nessa versão de arquivo texto é extremamente demorada. A interface da Brigham Young University veio a auxiliar na obtenção de buscas mais eficientes, conforme descrito abaixo.

3.2. TERMOS DE BUSCA

Foram empregados 20 termos de identificação do ser humano na pesquisa, quais sejam: adolescent(s), adult(s), boy(s), child/children, girl(s), kid(s), man/men, teen(s),

teenager(s), woman/women. Esses termos foram selecionados porque indicam de

algum modo as fases da vida em inglês. Foram consultados dicionários e thesauruses para auxiliar na seleção dos termos.

Foram feitos estudos pilotos para averiguar até que ponto os termos eram informativos. Vários termos foram descartados porque não se mostraram informativos, como ‘elderly’. Mesmo com a seleção final dos termos, ainda há termos que não são específicos de fase de vida, como ‘man’, que indentifica o próprio ser humano. Essa ambiguidade de alguns termos é uma das limitações do trabalho. No entanto, ao olhar os colocados desses termos por meio dos bigramas, o termo pode ser melhor especificado e por conseguinte a ambiguidade pode ser reduzida. Os

(30)

termos foram divididos em grupos etários e de gênero, conforme mostra o quadro a seguir, para a análise das representações:

Quadro 2: Termos de busca empregados na pesquisa Termos relacionados à infância

Termos não-marcados por gênero: child;children;kid;kids. Termos femininos: girl;girls.

Termos masculinos: boy;boys. Termos relacionados à adolescência:

Termos não-marcados por gênero: adolescent;adolescents;teen;teens; teenager;

teenagers.

Termos relacionados à idade adulta Termos não-marcados por gênero: adult;adults.

Termos femininos: woman; women. Termos masculinos: man; men.

Conforme tabela acima e em outros casos não fazemos menção de fontes pois são aclaradas na prévia ou na sequência da explanação. Cada um dos termos foi analisado usando os passos abaixo, que são descritos em seguida:

1. Busca do termo na interface Google Books N-Gram Database da Brigham Young University, imediatamente antecedido de um adjetivo. Designamos os resultados dessa busca, na tese, com a sigla (adj+). No desenvolvimento da pesquisa, foram feitas buscas também com substantivos e verbos, mas essas formas não foram incorporadas na versão final da tese porque excediam o escopo da pesquisa.

2. Busca do termo no Google Books N-Gram Viewer, para ser possível visualizar sua ocorrência e distribuição ao longo do período estudado (1800-2000). Quando relevante, o gráfico resultante foi salvo e incorporado à tese.

3. Cálculo da frequência normalizada dos colocados (o adjetivo associado ao termo de busca).

4. Etiqueagem semântica dos colocados, por meio do etiquetador USAS da University of Lancaster. Essa etiquetagem serviu para uma primeira classificação dos colocados, a fim de auxiliar a visualização da distribuição semântica dos colocados. Esse instrumento serviu de apoio para a análise qualitativa das representações emanentes dos dados. É preciso enfatizar que

(31)

a etiquetagem semântica não indica automaticamente as representações; a identificação das representações foi feita de modo qualitativo, usando algumas categorias do etiquetador, mas não se limitando a elas.

5. Análise da variação temporal dos colocados. Nessa etapa, foram identificados os colocados cuja frequência mais cresceu e mais decresceu entre os primeiros 50 anos (i.e. 1810-1850) e os últimos 50 anos (i.e. 1960-2000) compreendidos pelos dados. Também foram identificados os colocados que não ocorreram nos primeiros 50 anos e que passaram a existir nos últimos 50 anos (ou seja, os que não necessariamente tenham surgido nos últimos 50 anos, mas que tenham surgido a partir de 1860).

6. Análise da valoração dos colocados. Nessa última etapa, os colocados foram pontuados em uma escala de valoração, ou seja, por meio de um número que representa sua carga positiva ou negativa. Para tanto, foi empregada a ferramenta de sentiment analysis de Hamilton et. al (2016).

3.3. INTERFACE DO GOOGLE BOOKS N-GRAM DATABASE DA BRIGHAM YOUNG UNIVERSITY

Conforme mencionado, a Brigham Young University oferece uma interface de busca para a base de dados Google Books N-Grams no endereço:

https://googlebooks.byu.edu/#; nesta página é oferecida a opção de escolher uma das três bases de dados relativas ao Google Books N-Grams: American (155 billion words), British (34 billion words) e Spanish (45 billion words). Cada uma dessas bases é etiquetada gramaticalmente, o que permitiu a busca pelos colocados adjetivos. Escolhemos a opção ‘American English’, por ser a maior base de dados. Não há a opção de buscar toda a base de dados do inglês. As vantagens dessa interface sobre buscas feitas diretamente nos arquivos-texto baixados do Google Books NGram são:

1. A busca na base BYU é rápida, pois os dados textuais do Google Books Ngram foram convertidos em base de dados SQL.

2. A interface de busca pesquisa em toda a base de dados de uma vez. Uma busca direta nos dados oferecidos pelo Google Books NGram teria de ser feita em centenas de arquivos texto separadamente, ou em um gigantesco arquivo

(32)

texto, caso os diversos arquivos fossem concatenados. Os arquivos texto são baseados na primeira palavra do bigrama.

Assim, os bigramas que se iniciam com a palavra ‘adolescent’ encontram-se o arquivo correspondente à letra ‘a’, os com ‘child’ no arquivo referente à letra ‘c’ e assim em diante. Essa organização dos arquivos satisfaz a busca por colocados à direita do termo de busca (e.g. ‘adolescent’ seguido de ‘development’), pois essas iniciam-se por ‘adolescent’ (e.g. ‘adolescent find’) e substantivos (e.g. ‘adolescent development’). Por outro lado, esse arranjo não serve para buscas pelos colocados à esquerda de ‘adolescent’, como os colocados adjetivos, ‘+adj’, como ‘beautiful adolescent’, pois nesse caso ‘adolescent’ está na segunda posição e portanto no arquivo referente à letra ‘b’ (‘beautiful’). Além disso, como não restringimos a busca a determinados colocados, mas sim a todos os colocados, e portanto o colocado pode ser antecedido por palavras que se iniciam pelas mais variadas letras, os bigramas correspondentes estariam em qualquer um dos 704 arquivos. A busca seria então extremamente lenta. As buscas foram realizadas no Google

Books BYU do seguinte modo:

1. A palavra de busca ou nódulo foi digitado na caixa word(s).

2. A classe gramatical da palavra foi digitada na caixa Collocates: como o foco eram os para adjetivos, utilizamos [j*].

3. O horizonte, ou distância do colocado ao nódulo (Word), foi escolhido nos menus ao lado de ‘Collocates’. Como os colocados eram adjetivos, ‘1’ e ‘0’, ou seja, o colocado deve aparecer na posição imediatamente à esquerda (e.g. ‘beautiful adolescent’). Observamos que, nomenclaturas como exemplo em inglês ou outros nomes de categorias estão descritos em língua inglesa para melhor ilustração do estudo. Assim, retomando, existe a possibilidade de selecionar até quatro posições para o horizonte, de cada lado do nódulo. No entanto, as buscas com horizontes de 3 e 4 resultam em erro, devido a um problema na interface. Ao aumentar o horizonte, aumenta-se a quantidade de ‘ruído’ nos dados, uma vez que a posição exata do colocado perante ao nódulo torna-se desconhecida.

4. Os resultados da busca foram copiados para um arquivo txt. A interface BYU mostra os 100 colocados mais frequentes de cada palavra de busca, por

(33)

default. Utilizamos a opção default de 100 resultados (hits). Os resultados das bucas foram salvos em arquivos txt e processados posteriormente por um script desenvolvido pelo professor orientador especialmente para esta pesquisa.

A interface exibe a frequência dos colocados mais frequentes do termo de busca, divididos pelas décadas em que ocorreram. Ao contrário dos dados originais do

Google Books N-Gram, que possuem a identificação do ano em que ocorreram os

bigramas, na interface BYU as ocorrências não são identificadas por ano, mas por décadas. Foi por isso que utilizamos a década como unidade de tempo, em vez do ano. A figura 2 conforme segue, mostra as opções utilizadas para a busca dos substantivos imediatamente à direita de ‘adolescent’. A figura 2 mostra os resultados dessa busca:

Figura 2: Visão do formulário de busca da interface Google Books BYU

Fonte: Google Books BYU: https://googlebooks.byu.edu/x.asp A figura acima demonstra como é disposto o formulário de busca desta interface e a figura a seguir demonstra como é a visão parcial do analista ao realizar suas buscas e consultas na interface do Google Books via BYU.

Figura 3: Visão parcial amostral do resultado de busca da interface Google Books BYU para ‘adolescent’ imediatamente precedido por adjetivos.

(34)

Fonte: Google Books BYU: https://googlebooks.byu.edu/x.asp

3.4. GOOGLE BOOKS N-GRAM VIEWER

A ferramenta Google Books N-Gram Viewer permite a visualização de parte dos dados do Google Books N-Gram na forma de gráfico. Os gráficos se baseiam no número de publicações em que o termo ocorreu. O endereço da ferramenta é

https://books.google.com/ngrams. Esta etapa da análise serviu para permitir uma

visão geral do uso do termo de busca na base de dados. Ou seja, esta etapa não responde uma pergunta de pergunta de pesquisa específica, apenas mostra de modo visual a distribuição da ocorrência do termo de busca ao longo do período pesquisado, com base no número de obras do Google Books que utilizaram o termo. A ferramenta foi utilizada do seguinte modo:

1. Digitamos cada termo de busca na janela de busca, em caixa baixa, não clicando em ‘case-insensitive’, porque se assim fosse, apareceriam três linhas distintas do termo de busca – por exemplo, para o termo ‘adolescent’, surgiria no mesmo gráfico uma linha para ‘adolescent’, uma para ‘Adolescent’ e ainda outra para ‘ADOLESCENT’. Na página de ajuda (‘About N-Gram Viewer’), consta que é possível obter uma linha de plotagem ‘All’, que corresponderia a todas as formas de capitalização juntas. No entanto, essa opção não existe mais de fato.

2. Selecionamos o corpus ‘American English’, que é o mesmo utilizado na interface da BYU (a qual não oferece o corpus completo de inglês.).

3. Aceitamos o período de tempo default, i.e. ‘between 1800 and 2000’, e o ‘smoothing’ default no valor 3. O smoothing é uma maneira de tornar a linha do gráfico mais suave, por meio de uma média móvel de três pontos diferentes.

(35)

Assim, para smoothing igual a 3, em vez de mostrar os três pontos originais dos dados, por exemplo, para 1980, 1980 e 1982, o gráfico mostra a média desses três anos, plotando o valor médio correspondente - por exemplo, no ponto correspondente a 1980 no gráfico, não é plotado o valor real de 1980, mas sim a média dos três anos que incluem 1980; em 1981, é plotado o valor de 1981, 1982 e 1983, e assim em diante. Aumentando o valor de ‘smoothing’, a curva fica mais regular, porém ao mesmo tempo torna-se mais distante do valor exato correspondente a cada ano; diminuindo o valor, a curva fica mais fidedigna pois representa o valor real de cada ano, mas ao mesmo torna mais difícil visualizar a tendência dos dados, pois fica mais ‘pontuada’. Abaixo aparece o gráfico corresponde ao termo ‘adolescent’, correspondente ao URL:

Figura 4: Gráfico de adolescent mostrando a frequência do termo em

American English de 1850 a 2000 no Google Books N-Gram Viewer, com smoothing 3

Fonte:https://books.google.com/ngrams/graph?content=adolescent&year_sta rt=1800&year_end=2000&corpus=17&smoothing=3&share=&direct_url=t1%3 B%2Cadolescent%3B%2Cc0

Os valores do eixo Y (vertical) correspondem à porcentagem de livros publicados em um dado ano que contém o termo de busca. Ao clicar em qualquer ponto da curva, o gráfico mostra o valor correspondente. Por exemplo, para o ano de 1980, o gráfico mostra que 0,0011737060% dos livros publicados naquele ano tiveram pelo menos uma menção de adolescent.

(36)

Desse modo, os valores apresentados no gráfico são diferentes dos utilizados na análise apresentada aqui, pois os nossos dados correspondem à frequência do termo e não à menção em pelo menos um livro. Se um mesmo livro tiver mais de uma menção, o gráfico registrará apenas uma delas conforme a seguir:

Figura 5: Gráfico parcial de adolescent mostrando a frequência do termo em

American English em 1980 no Google Books N-Gram Viewer

Fonte: Google Books N-Gram Viewer

3.5. CÁLCULO DA FREQUÊNCIA NORMALIZADA DE USO POR MILHÃO DE PALAVRAS

Os resultados apresentados pela interface BYU mostram a frequência de uso observada dos colocados. No entanto, o número de publicações existentes no Google

Books varia entre um ano para outro e, por conseguinte, o número de palavras

resultante dessa coleção de publicações também varia. Desse modo, não é possível comparar diretamente as diferentes épocas em que um colocado ocorreu usando as frequências relatadas pela interface BYU.

Antes de fazer a comparação, é preciso normalizar as frequências com base em um valor comum, por exemplo, a incidência por milhão de palavras. Para fazer isso, é preciso saber a quantidade de palavras presente no Google Books em cada ano e em cada década e em seguida aplicar esta fórmula para normalizar essas frequências:

(37)

Frequência normalizada por milhão = (frequência observada na década / total de palavras indexadas na década) x 1.000.000

A aplicação da fórmula será ilustrada mais abaixo. A página web do Google

Books N-Gram disponibiliza a listagem dos totais por ano de cada versão da base. A

listagem de totais da versão utilizada nesta pesquisa, American English 20090715, está disponível em:

http://storage.googleapis.com/books/ngrams/books/googlebooks-eng-us-all-totalcounts-20090715.txt

Essa listagem tem o seguinte formato, conforme tabela:

Tabela 3: Tamanho anual da base de dados American English 20090715, século XVI

Ano Palavras Páginas Publicações

1584 382341 926 1

1590 270386 581 1

1592 50762 129 1

1596 187852 721 1

1600 24755 75 1

Conforme acima, na primeira coluna aparece o ano de publicação, na segunda o total de palavras do texto das publicações, a terceira coluna, o número de páginas, e a última coluna, o número de publicações. Como se nota, para os primeiros anos da base (século XVI), apenas uma publicação foi indexada. Além disso, nem todos os anos do calendário estão representados. Contudo, à medida que o tempo avança, o número de anos do calendário representados aumenta, assim como as publicações em cada ano e por conseguinte o número de palavras, com exceção do ano de 2009: Tabela 4: Tamanho anual da base de dados American English 20090715, séculos XIX e XX.

Ano Palavras Páginas Publicações

1810 50.310.140 125279 331 1811 45143616 114248 322 1812 29000160 77961 235 1813 38676533 92780 268 1814 29621414 77357 227 2005 3043824240 7342388 25215 2006 3124744950 7561043 25937 2007 3242955303 7881967 27272 2008 2455892145 5957237 20038

(38)

2009 321421830 798972 2600

O script produzido pelo professor orientador somou o número de palavras (a segunda coluna) das listagem referente à base de American English em cada década. O resultado aparece na tabela a seguir.

Tabela 5: Tamanho por década da base de dados American English 20090715

Década Total de palavras

1810 380.370.538 1820 659.116.922 1830 1.444.634.823 1840 1.947.273.456 1850 2.966.058.279 1860 2.363.775.831 1870 2.858.008.563 1880 4.428.123.678 1890 5.654.162.001 1900 7.546.446.475 1910 10.121.491.734 1920 7.111.815.042 1930 5.813.684.868 1940 6.187.289.454 1950 8.131.454.765 1960 13.238.868.419 1970 14.065.180.894 1980 15.572.875.850 1990 19.894.712.191 2000 27.003.574.219

Para ilustrar a aplicação da fórmula de normalização por milhão de ocorrências, tomemos o exemplo do colocado ‘young’ de adolescent (adj+). As frequências observadas relatadas pela interface BYU são:

Tabela 6: Ocorrências observadas do colocado ‘young’ imediatamente à esquerda de

adolescent reportadas pela interface BYU do Google Books N-Gram Viewer para American English Década Ocorrências 1810 0 1820 0 1830 0 1840 2

(39)

1850 2 1860 2 1870 2 1880 4 1890 13 1900 25 1910 83 1920 153 1930 268 1940 266 1950 767 1960 1482 1970 2198 1980 2535 1990 3629 2000 4351

Usando a fórmula relatada anteriormente, a frequência normalizada para a década de 2000 é calculada assim:

Frequência normalizada por milhão = (frequência observada na década / total de palavras indexadas na década) x 1.000.000.

Frequência normalizada por milhão = (4.351 / 27.003.574.219) x 1.000.000 = 0,1611268184.

O mesmo processo foi realizado pelo script para todos os colocados e todas as palavras em todas as décadas.

3.6. ETIQUETAGEM SEMÂNTICA DOS COLOCADOS

Os colocados foram etiquetados com o etiquetador USAS (UCREL semantic

analysis system) da Universidade de Lancaster. Esse etiquetador foi desenvolvido por

Paul Rayson, da University Centre for Computer Corpus Research on Language (UCREL). O etiquetador para a língua inglesa é disponível gratuitamente no endereço:http://ucrel-api.lancaster.ac.uk/usas/tagger.html. O script desenvolvido pelo professor orientador produziu listas dos colocados formatadas para input do etiquetador. As listas foram copiadas e coladas no etiquetador, que retornou o output em tela contendo a lista etiquetada. Cada output foi então copiado para arquivo txt e processado pelo script a fim de listar as classes semânticas principais de cada

(40)

colocado. A Figura 6 ilustra a página de entrada do etiquetador. A Tabela 7 mostra o resultado parcial da etiquetagem dos colocados de adolescent (adj+).

Figura 6: Página de entrada do etiquetador online USAS

Fonte: USAS Tagger.

Tabela 7: Resultado parcial da etiquetagem dos colocados de adolescent (adj+)

Colocado Etiquetas semânticas

active X5.2+ A1.1.1

aggressive E3-

american Z2/S2mf

angry E3- W4

average A6.2+ A5.1 N2

awkward A12- O4.2- E1

beautiful O4.2+

black O4.3 G2.2- A5.1- E4.1- S5+

blind X3.4-/B2-

certain A4.2+ A7+

common A6.2+ N5++ S5+ O4.2-

contemporary T1.1.2

creative X2.1/A6.2-

critical Q2.2/E2- X2.4 A11.1+ A15-

O tagset empregado pelo etiquetador contém 231 etiquetas, as quais aparecem na tabela abaixo.

(41)

Tabela 8: Tagset do etiquetador semântico USAS.

Etiqueta Descrição da etiqueta

A1 GENERAL AND ABSTRACT TERMS

A1.1.1 General actions, making etc.

A1.1.2 Damaging and destroying

A1.2 Suitability

A1.3 Caution

A1.4 Chance, luck

A1.5 Use A1.5.1 Using A1.5.2 Usefulness A1.6 Physical/mental A1.7 Constraint A1.8 Inclusion/Exclusion A1.9 Avoiding A2 Affect

A2.1 Affect:- Modify, change

A2.2 Affect:- Cause/Connected

A3 Being

A4 Classification

A4.1 Generally kinds, groups, examples

A4.2 Particular/general; detail

A5 Evaluation

A5.1 Evaluation: Good/bad

A5.2 Evaluation: True/false

A5.3 Evaluation: Accuracy

A5.4 Evaluation: Authenticity

A6 Comparing

A6.1 Comparing: Similar/different

A6.2 Comparing: Usual/unusual

A6.3 Comparing: Variety

A7 Definite (+ modals)

A8 Seem

A9 Getting and giving; possession

A10 Open/closed; Hiding/Hidden; Finding;

Showing

A11 Importance

A11.1 Importance: Important

A11.2 Importance: Noticeability

A12 Easy/difficult

A13 Degree

A13.1 Degree: Non-specific

A13.2 Degree: Maximizers

A13.3 Degree: Boosters

A13.4 Degree: Approximators

(42)

A13.6 Degree: Diminishers

A13.7 Degree: Minimizers

A14 Exclusivizers/particularizers

A15 Safety/Danger

B1 Anatomy and physiology

B2 Health and disease

B3 Medicines and medical treatment

B4 Cleaning and personal care

B5 Clothes and personal belongings

C1 Arts and crafts

E1 EMOTIONAL ACTIONS, STATES AND

PROCESSES General

E2 Liking

E3 Calm/Violent/Angry

E4 Happy/sad

E4.1 Happy/sad: Happy

E4.2 Happy/sad: Contentment

E5 Fear/bravery/shock

E6 Worry, concern, confident

F1 Food

F2 Drinks

E5 Fear/bravery/shock

E6 Worry, concern, confident

F1 Food

F2 Drinks

F3 Cigarettes and drugs

F4 Farming & Horticulture

G1 Government, Politics and elections

G1.1 Government etc.

G1.2 Politics

G2 Crime, law and order

G2.1 Crime, law and order: Law and order

G2.2 General ethics

G3 Warfare, defense and the army; weapons

H1 Architecture and kinds of houses and

buildings

H2 Parts of buildings

H3 Areas around or near houses

H4 Residence

H5 Furniture and household fittings

I1 Money generally

I1.1 Money: Affluence

I1.2 Money: Debts

I1.3 Money: Price

I2 Business

I2.1 Business: Generally

I2.2 Business: Selling