• Nenhum resultado encontrado

Consistência de palavras

No documento Classificação de textos com redes complexas (páginas 163-166)

Desde os primórdios da humanidade, a habilidade de comunicação tem desempenhado um papel fundamental para a preservação da vida e manutenção das relações sociais. A escrita, uma das principais manifestações da comunicação, cuja invenção remonta a 3200 a.C., também se estabeleceu como uma das principais habilidades desenvolvidas pela humanidade. Entre as principais vantagens da língua escrita em relação à falada estão a capacidade de portabilidade e permanência, que garantem que os pensamentos, idéias, histórias e fatos sejam preservadas através dos séculos. Apesar desta ubiquidade, a habilidade de se escrever um texto conciso, coerente e claro ainda não pode ser considerada uma tarefa trivial ou comum. Mesmo após a aquisição da linguagem, a construção de um texto preciso e bem concatenado exige, além de um pensamento organizado, a habilidade de uso recursos lingüísticos expressivos aliada à interpretação analítica da realidade.

Além das dificuldades impostas pelos mecanismos da gramática na língua escrita (110), existe ainda um fator relacionado ao nível semântico dos detalhes necessários para recriar a idéia original do autor. Como não é possível especificar todos os detalhes em um texto finito, o autor deve sempre ajustar o nível desejado de detalhamento. Assim, quando poucos detalhes são fornecidos o leitor deve preencher os espaços em branco usando seu próprio conhecimento e experiência sobre o mundo. Por outro lado, em um texto excessivamente pormenorizado, pouco espaço é deixado para inferências, o que torna a leitura mais objetiva. Esta dicotomia entre objetividade e subjetividade tem sido explorada de diversas maneiras em diferentes gêneros de escrita. Enquanto textos científicos, jornais, revistas e relatórios tendem a usar uma abordagem mais objetiva, textos literários e artísticos preferem uma apresentação mais subjetiva. Em ambos os casos, o grau de objetividade (ou subjetividade) varia de acordo com o tamanho do texto (textos longos tendem a ser mais detalhados), e o número de palavras descritivas (um texto com muitos adjetivos, por exemplo, tende a ser muito detalhado). O contexto induzido pelas palavras parece ser igualmente importante no nível de detalhamento (111, 112), uma vez que as palavras que induzem contextos restritos tendem a limitar a capacidade de extrapolar idéias, tornando o texto mais objetivo.

Tomando a relação entre indução e objetividade como motivação (113), neste capítulo abordamos o problema de quantificar/classificar a consistência inerente das palavras, isto é, o grau de preservação de suas vizinhança (contexto), no intuito de entender as razões pelas quais uma palavra é usada de uma forma mais ou menos consistente. Usamos o termo consistência porque as palavras cujo contexto é preservado em suas inúmeras ocorrências tenderá a ser utilizada consistentemente por diferentes autores, inferindo sempre um mesmo contexto. Usando os conceitos e metodologias de redes complexas para analisar a relação entre os conceitos, desenvolvemos uma série de índices para medir a consistência. Estes índices são baseados na ideia de que, se uma palavra induz um conjunto limitado de contextos, então a vizinhança dessa palavra será mantida mesmo em textos escritos por diferentes autores. Esta hipótese é de fato razoável, uma vez que é sabido que as palavras sintaticamente relacionados também tendem a ser semanticamente relacionadas. Neste capítulo estudamos ainda a distribuição da medida proposta e sua correlação com outros fatores linguísticos das palavras, tais como frequência na língua e nível de ambiguidade. A aplicabilidade dos índices de consistência em tarefas reais será ilustrada no problema de reconhecimento de autoria.

8.1 Rede dos autores

Os contextos distintos na qual cada palavra é utilizada foram investigados com um banco de dados obtidos no projeto Gutenberg. Este banco de dados é apresentado na Tabela 8.1. Embora o número de livros utilizados para cada autor seja diferente, o tamanho do corpus para cada autor foi mantido constante (180.500 tokens). Dessa forma, a diferença do tamanho do corpora pouco influencia a análise de consistência das palavras.

Após a criação de uma rede para cada livro de cada autor, as redes de livros de um mesmo autor foram mescladas para a obtenção da rede do autor, que reflete as associações de palavras geradas por aquele autor. Em outras palavras, se um dado vértice aparece em uma das redes de livros do autor, então ela aparecerá na rede do autor correspondente. Analogamente, dois vértices são conectados na rede de autor se ambas aparecem conectadas em pelo menos uma rede de livro do autor. O processo de derivação das redes de autores é ilustrado na Figura 8.1.

8.2 Índices de consistência

Nesta seção, descrevemos os índices propostos para medir a consistência C de uso das palavras. Como o cálculo da consistência necessita que as palavras ocorram em todas as

8.2. Índices de consistência 163

Tabela 8.1– Banco de dados empregado nos experimentos de análise de consistência de palavras.

Livro Autor

Uncle Bernac - A Memory of the Empire Arthur Conan Doyle

The Tragedy of the Korosko Arthur Conan Doyle

The Valley of Fear Arthur Conan Doyle

The War in South Africa Arthur Conan Doyle

The White Company Arthur Conan Doyle

Through the Magic Door Arthur Conan Doyle

The Adventures of Sherlock Holmes Arthur Conan Doyle

Dracula’s Guest Bram Stoker

The Jewel Of Seven Stars Bram Stoker

The Lady of the Shroud Bram Stoker

Lair of the White Worm Bram Stoker

The Man Bram Stoker

Coral Reefs Charles Darwin

On the Origin of Species Charles Darwin

The Voyage of the Beagle Charles Darwin

The Different Forms of Flowers on Plants Charles Darwin

American Notes Charles Dickens

A Tale of Two Cities Charles Dickens

Hard Times Charles Dickens

The Old Curiosity Shop Charles Dickens

A Changed Man; and Other Tales Thomas Hardy

Desperate Remedies Thomas Hardy

Far from the Madding Crowd Thomas Hardy

The Hand of Ethelberta Thomas Hardy

My Man Jeeves P. G. Wodehouse

Tales of St. Austin’s P. G. Wodehouse

The Adventures of Sally P. G. Wodehouse

The Clicking of Cuthbert P. G. Wodehouse

The Gem Collector P. G. Wodehouse

The Man with Two Left Feet P. G. Wodehouse

The Pothunters P. G. Wodehouse

The Swoop! P. G. Wodehouse

The White Feather P. G. Wodehouse

Jacob’s Room Virginia Woolf

Monday or Tuesday Virginia Woolf

Night and Day Virginia Woolf

The Voyage Out Virginia Woolf

Lyrical Ballads William Wordsworth

LIVRO 1

LIVRO 2

LIVRO 3

REDE DO

No documento Classificação de textos com redes complexas (páginas 163-166)