Desde os primórdios da humanidade, a habilidade de comunicação tem desempenhado um papel fundamental para a preservação da vida e manutenção das relações sociais. A escrita, uma das principais manifestações da comunicação, cuja invenção remonta a 3200 a.C., também se estabeleceu como uma das principais habilidades desenvolvidas pela humanidade. Entre as principais vantagens da língua escrita em relação à falada estão a capacidade de portabilidade e permanência, que garantem que os pensamentos, idéias, histórias e fatos sejam preservadas através dos séculos. Apesar desta ubiquidade, a habilidade de se escrever um texto conciso, coerente e claro ainda não pode ser considerada uma tarefa trivial ou comum. Mesmo após a aquisição da linguagem, a construção de um texto preciso e bem concatenado exige, além de um pensamento organizado, a habilidade de uso recursos lingüísticos expressivos aliada à interpretação analítica da realidade.
Além das dificuldades impostas pelos mecanismos da gramática na língua escrita (110), existe ainda um fator relacionado ao nível semântico dos detalhes necessários para recriar a idéia original do autor. Como não é possível especificar todos os detalhes em um texto finito, o autor deve sempre ajustar o nível desejado de detalhamento. Assim, quando poucos detalhes são fornecidos o leitor deve preencher os espaços em branco usando seu próprio conhecimento e experiência sobre o mundo. Por outro lado, em um texto excessivamente pormenorizado, pouco espaço é deixado para inferências, o que torna a leitura mais objetiva. Esta dicotomia entre objetividade e subjetividade tem sido explorada de diversas maneiras em diferentes gêneros de escrita. Enquanto textos científicos, jornais, revistas e relatórios tendem a usar uma abordagem mais objetiva, textos literários e artísticos preferem uma apresentação mais subjetiva. Em ambos os casos, o grau de objetividade (ou subjetividade) varia de acordo com o tamanho do texto (textos longos tendem a ser mais detalhados), e o número de palavras descritivas (um texto com muitos adjetivos, por exemplo, tende a ser muito detalhado). O contexto induzido pelas palavras parece ser igualmente importante no nível de detalhamento (111, 112), uma vez que as palavras que induzem contextos restritos tendem a limitar a capacidade de extrapolar idéias, tornando o texto mais objetivo.
Tomando a relação entre indução e objetividade como motivação (113), neste capítulo abordamos o problema de quantificar/classificar a consistência inerente das palavras, isto é, o grau de preservação de suas vizinhança (contexto), no intuito de entender as razões pelas quais uma palavra é usada de uma forma mais ou menos consistente. Usamos o termo consistência porque as palavras cujo contexto é preservado em suas inúmeras ocorrências tenderá a ser utilizada consistentemente por diferentes autores, inferindo sempre um mesmo contexto. Usando os conceitos e metodologias de redes complexas para analisar a relação entre os conceitos, desenvolvemos uma série de índices para medir a consistência. Estes índices são baseados na ideia de que, se uma palavra induz um conjunto limitado de contextos, então a vizinhança dessa palavra será mantida mesmo em textos escritos por diferentes autores. Esta hipótese é de fato razoável, uma vez que é sabido que as palavras sintaticamente relacionados também tendem a ser semanticamente relacionadas. Neste capítulo estudamos ainda a distribuição da medida proposta e sua correlação com outros fatores linguísticos das palavras, tais como frequência na língua e nível de ambiguidade. A aplicabilidade dos índices de consistência em tarefas reais será ilustrada no problema de reconhecimento de autoria.
8.1 Rede dos autores
Os contextos distintos na qual cada palavra é utilizada foram investigados com um banco de dados obtidos no projeto Gutenberg. Este banco de dados é apresentado na Tabela 8.1. Embora o número de livros utilizados para cada autor seja diferente, o tamanho do corpus para cada autor foi mantido constante (180.500 tokens). Dessa forma, a diferença do tamanho do corpora pouco influencia a análise de consistência das palavras.
Após a criação de uma rede para cada livro de cada autor, as redes de livros de um mesmo autor foram mescladas para a obtenção da rede do autor, que reflete as associações de palavras geradas por aquele autor. Em outras palavras, se um dado vértice aparece em uma das redes de livros do autor, então ela aparecerá na rede do autor correspondente. Analogamente, dois vértices são conectados na rede de autor se ambas aparecem conectadas em pelo menos uma rede de livro do autor. O processo de derivação das redes de autores é ilustrado na Figura 8.1.
8.2 Índices de consistência
Nesta seção, descrevemos os índices propostos para medir a consistência C de uso das palavras. Como o cálculo da consistência necessita que as palavras ocorram em todas as
8.2. Índices de consistência 163
Tabela 8.1– Banco de dados empregado nos experimentos de análise de consistência de palavras.
Livro Autor
Uncle Bernac - A Memory of the Empire Arthur Conan Doyle
The Tragedy of the Korosko Arthur Conan Doyle
The Valley of Fear Arthur Conan Doyle
The War in South Africa Arthur Conan Doyle
The White Company Arthur Conan Doyle
Through the Magic Door Arthur Conan Doyle
The Adventures of Sherlock Holmes Arthur Conan Doyle
Dracula’s Guest Bram Stoker
The Jewel Of Seven Stars Bram Stoker
The Lady of the Shroud Bram Stoker
Lair of the White Worm Bram Stoker
The Man Bram Stoker
Coral Reefs Charles Darwin
On the Origin of Species Charles Darwin
The Voyage of the Beagle Charles Darwin
The Different Forms of Flowers on Plants Charles Darwin
American Notes Charles Dickens
A Tale of Two Cities Charles Dickens
Hard Times Charles Dickens
The Old Curiosity Shop Charles Dickens
A Changed Man; and Other Tales Thomas Hardy
Desperate Remedies Thomas Hardy
Far from the Madding Crowd Thomas Hardy
The Hand of Ethelberta Thomas Hardy
My Man Jeeves P. G. Wodehouse
Tales of St. Austin’s P. G. Wodehouse
The Adventures of Sally P. G. Wodehouse
The Clicking of Cuthbert P. G. Wodehouse
The Gem Collector P. G. Wodehouse
The Man with Two Left Feet P. G. Wodehouse
The Pothunters P. G. Wodehouse
The Swoop! P. G. Wodehouse
The White Feather P. G. Wodehouse
Jacob’s Room Virginia Woolf
Monday or Tuesday Virginia Woolf
Night and Day Virginia Woolf
The Voyage Out Virginia Woolf
Lyrical Ballads William Wordsworth