• Nenhum resultado encontrado

Metodologia de análise

No documento Classificação de textos com redes complexas (páginas 100-105)

Análise das propriedades estatísticas de textos

5.1 Metodologia de análise

As propriedades das medidas de texto empregadas nesta tese foram investigadas em duas dimensões de variabilidade. Medidas estatísticas de redes complexas podem variar devido (i) aos diferentes padrões sintáticos típicos de línguas diferentes e (ii) devido à semântica ou estilo do texto, para uma dada língua. Para estudar o comportamento das métricas com relação a (i), versões do Novo Testamento da Bíblia foram empregadas nos seguintes idiomas: Árabe, Basco, Inglês, Esperanto, Alemão, Grego, Hebraico, Húngaro, Coreano, Latim, Português, Russo, Suaíli, Vietnamita e Xhosa. O Novo Testamento foi escolhido para este tipo de análise pois é um dos poucos textos longos disponíveis em vários idiomas. Para estudar a variabilidade do tipo (ii) um conjunto de 15 textos em Português e 15 textos em Inglês foi utilizado. A lista de livros em Português e em Inglês é apresentada nas Tabelas 5.1 e 5.2, respectivamente. Neste caso, a escolha dos textos guiou-se pela tentativa de seleção de textos longos (para fornecer uma análise estatística significativa) tratando de assuntos diferentes para conferir uma maior variabilidade semântica dentro do genêro selecionado. Excepcionalmente na análise realizada no estudo de livros, o pré-processamento do texto descrito na Seção 3.4 (remoção de stopwords e lematização) não foi aplicado já que a abordagem de análise de métricas neste capítulo é independente do idioma. Por esse motivo esta metodologia pode ser aplicada até mesmo em textos cujo idioma é desconhecido, como é o caso do manuscrito Voynich.

5.1.1 Normalização das medidas

Uma vez que estamos interessados em medidas capazes de distinguir um texto com significado de suas versões aleatórias, cada uma das medidas X, hXi2 e γ(X) foi normali-

zada pela média obtida em 10 textos aleatorizados (i.e., a ordem das palavras é trocada mas a frequência é mantida). Se µ(XR) e σ(XR) são respectivamente a média e o desvio

5.1. Metodologia de análise 99

Tabela 5.1– Lista de livros em Inglês (ano de publicação, título e autor) para analisar a variabilidade de métricas textuais. A escolha dos textos guiou-se pela tentativa de seleção de textos longos tratando de assuntos diferentes a fim de conferir maior variabilidade semântica para o genêro estudado.

Ano Título Autor

1605 The Advancement of Learning Francis Bacon 1612 True Christianity Johann Arndt 1624 Devotions upon Emergent Occasions John Donne

1651 Leviathan Thomas Hobbes

1726 Gulliver’s Travels Jonathan Swift 1748 Life’s Progress through the Passions Eliza Haywood 1771 The Expedition of Humphry Clinker Tobias Smollett 1792 A Vindication of the Rights of Woman Mary Wollstonecraft 1811 Sense and Sensibility Jane Austen

1826 The Last of the Mohicans James Fenimore Cooper 1847 Wuthering Heights Emily Brontë

1878 The Return of the Native Thomas Hardy 1909 The Lady of the Shroud Bram Stoker

1913 The New Freedom Woodrow Wilson

1920 The Age of Innocence Edith Wharton

à normalização de X é:

˜

X = X

µ(XR)

. (5.1)

Dado que µ(XR) apresenta um erro ǫ(µ(XR)) = σ(XR) devido ao desvio observado nas

realizações aleatórias, o erro ǫ( ˜X) observado na variável ˜X é dado por:

ǫ( ˜X) = d ˜X dµ(XR) ǫ(µ(XR)) = − X µ2(X R) σ(XR) = σ(XR) µ2(X R) X = σ(XR) µ(XR) ˜ X. (5.2)

A normalização efetuada na equação 5.1 é útil porque permite comparar cada medida como um modelo nulo. Dessa forma, uma medida fornece informação significativa somente se seu valor ˜X não é próximo de ˜X = 1. Além disso, a influência do tamanho do vocabulário

em outras medidas tende a ser minimizada.

5.1.2 Variabilidade entre línguas e textos

As medidas usadas nesta tese variam de texto para texto devido às propriedades sintáticas da linguagem. Em uma dada linguagem, existe também uma variação óbvia entre textos devido aos fatores estilísticos e semânticos. Dessa forma, em uma primeira aproximação podemos assumir que variações entre textos de uma medida ˜X ocorre em duas

Tabela 5.2– Lista de livros em Português (ano de publicação, título e autor) para analisar a variabilidade de métricas textuais. A escolha dos textos guiou-se pela tentativa de seleção de textos longos tratando de assuntos diferentes a fim de conferir maior variabilidade semântica para o genêro estudado.

Ano Título Autor

1845 Moço Loiro Joaquim Manuel de Macedo 1848 Os Dois Amores Joaquim Manuel de Macedo 1862 Amor de Perdição Camilo Castelo Branco 1863 Pupilas do Senhor Reitor Júlio Dinis

1875 A Escrava Isaura Bernardo Guimarães 1876 Helena Machado de Assis 1879 O Sacrifício Franklin Távora 1884 Casa de Pensão Aluísio Azevedo 1887 A Relíquia Eça de Queirós 1888 Os Maias Eça de Queirós 1891 O Missionário Inglês de Souza 1899 Dom Casmurro Machado de Assis 1902 Os Sertões Euclides da Cunha 1920 Cemitério dos Vivos Lima Barreto 1948 Clara dos Anjos Lima Barreto

tivéssemos acesso à matriz completa ˜Xt,l, isto é, se todos os possíveis textos em cada língua

possível pudessem ser analisados, poderíamos simplesmente comparar um novo texto t com a variação total da medida ˜Xt,l para, por exemplo, verificar para cada língua l = λ se um

texto dado texto t = τ é compatível com aquela língua. Na prática, podemos completar apenas algumas linhas e colunas e portanto alguns testes estatísticos são necessários a fim de caracterizar a variação de medidas específicas. Para textos distintos, P ( ˜Xt,l=λ)

representa a distribuição da medida ˜X entre textos diferentes em uma dada língua l = λ e P( ˜Xt=τ,l) a distribuição de ˜X para um texto fixo t = τ escrito em várias línguas. Dessa

forma, µ(P ) and σ(P ) representam a expectância e a variação da distribuição P . Como exemplo, a Figura 5.1 ilustra a distribuição de ˜X = b (número de bigramas duplicados)

para três conjuntos de textos que utilizamos em nossa análise: 15 livros em Português (Tabela 5.2), 15 livros em Inglês (Tabela 5.1) e 15 versões do Novo Testamento escrito em 15 diferentes línguas. Consideramos também a média ˜Xm e o desvio padrão ∆ ˜X calculado

sobre diferentes livros (por exemplo, cada um dos três conjuntos de 15 livros) e a correlação Corr( ˜X, M) entre ˜X e o tamanho do vocabulário M do livro. A Tabela 5.3 ilustra os

valores de ˜Xm, ∆ ˜X e Corr( ˜X, M) de todas as medidas em cada um dos três conjuntos de

livros. A fim de melhor entender a dependência destas medidas com a linguagem (sintaxe) e o texto (semântica), a seguir realizamos alguns testes estatísticos para identificar as medidas que são mais apropriadas para abordar problemas específicos.

5.1. Metodologia de análise 101

Tabela 5.3– Valores normalizados de métricas para o conjunto de textos do Novo Testamento (τ =nt) e romances do Português (λ = pt) e Inglês (λ = en). A correlação das medidas com o tamanho do vocabulário M é mostrada na última coluna.

˜ X X˜m± ∆ ˜X Corr( ˜X, M) τ = nt λ= en λ= pt Vocabulário M 5 809 ± 2 665 4 720 ± 922 6 921 ± 1 126 +1,00 Expoente de Zipf γN 1, 99 ± 0, 11 1, 93 ± 0, 06 2, 01 ± 0, 09 +0,86 Assortatividade r 0, 91 ± 0, 10 1, 10 ± 0, 06 1, 15 ± 0, 04 +0,07 Diâmetro d 1, 44 ± 0, 58 1, 32 ± 0, 38 1, 07 ± 0, 14 +0,08 Caminhos mínimos hLi 1, 04 ± 0, 05 0, 99 ± 0, 02 0, 97 ± 0, 01 +0,20 Caminhos mínimos hLi2 1, 08 ± 0, 04 1, 04 ± 0, 02 1, 03 ± 0, 01 +0,34

Aglomeração hCi 0, 83 ± 0, 13 0, 97 ± 0, 04 0, 97 ± 0, 03 -0,34 Aglomeração hCi2 0, 66 ± 0, 13 0, 65 ± 0, 08 0, 63 ± 0, 07 -0,58 Intermitência hIi 1, 30 ± 0, 07 1, 29 ± 0, 14 1, 27 ± 0, 06 -0,43 Intermitência hIi2 1, 32 ± 0, 05 1, 32 ± 0, 14 1, 26 ± 0, 09 -0,26 Bigramas b 0, 18 ± 0, 15 0, 05 ± 0, 04 0, 10 ± 0, 05 +0,27 Grau hki 0, 71 ± 0, 06 0, 82 ± 0, 03 0, 87 ± 0, 02 +0,53 Grau hki2 0, 71 ± 0, 07 0, 89 ± 0, 05 1, 00 ± 0, 04 +0,26 Exp. da seletividade γS 0, 43 ± 0, 14 0, 51 ± 0, 06 0, 47 ± 0, 07 -0,49 Seletividade hSi 1, 32 ± 0, 18 1, 13 ± 0, 03 1, 07 ± 0, 02 -0,51 Seletividade hSi2 2, 09 ± 0, 84 1, 47 ± 0, 08 1, 33 ± 0, 10 -0,39 Motivo de rede mA 0, 09 ± 0, 04 0, 12 ± 0, 04 0, 17 ± 0, 04 +0,02 Motivo de rede mB 1, 11 ± 0, 37 1, 54 ± 0, 11 1, 72 ± 0, 07 -0,09 Motivo de rede mC 0, 83 ± 0, 21 1, 19 ± 0, 10 1, 28 ± 0, 05 +0,04 Motivo de rede mD 0, 22 ± 0, 09 0, 27 ± 0, 11 0, 37 ± 0, 06 +0,24 Motivo de rede mE 0, 76 ± 0, 18 1, 27 ± 0, 16 1, 03 ± 0, 06 -0,23 Motivo de rede mF 0, 24 ± 0, 07 0, 37 ± 0, 05 0, 39 ± 0, 06 -0,20 Motivo de rede mG 0, 36 ± 0, 14 0, 47 ± 0, 09 0, 56 ± 0, 05 +0,14 Motivo de rede mH 0, 71 ± 0, 24 1, 25 ± 0, 11 1, 16 ± 0, 11 -0,17 Motivo de rede mI 0, 20 ± 0, 07 0, 32 ± 0, 05 0, 36 ± 0, 05 -0,14 Motivo de rede mJ 0, 45 ± 0, 17 0, 57 ± 0, 12 0, 73 ± 0, 05 +0,11 Motivo de rede mK 0, 59 ± 0, 25 1, 22 ± 0, 16 1, 02 ± 0, 08 -0,24 Motivo de rede mL 0, 03 ± 0, 02 0, 04 ± 0, 02 0, 06 ± 0, 02 +0,10 Motivo de rede mM 0, 26 ± 0, 10 0, 39 ± 0, 06 0, 46 ± 0, 08 -0,14

0,00 0,10 0,20 0,30 0,40 0,50 X = NÚMERO DE

BIGRAMAS DUPLICADOS

Figura 5.1– Distribuição de ˜X = b para o Novo Testamento (círculos em preto), Inglês (círculos vermelhos) e Português (círculos azuis). A média ˜Xm para os três conjuntos de textos

está representada por linhas pontilhadas. Note que nos três conjuntos de texto ˜X <1 e portanto a métrica considerada possui valores diferentes daqueles em textos aleatórios.

5.2 Distinguindo livros de sequências aleatórias

O primeiro objetivo aqui é identificar as medidas capazes de distinguir textos naturais de textos aleatorizados. Estas medidas serão denominadas como medidas informativas. Por exemplo, para ˜X = b na Figura 5.1, todos os valores são muito menores que 1 em

todos os três conjuntos de textos, indicando que sua medida assume valores menores em textos naturais do que em textos aleatórios. A fim de quantificar a distância de um conjunto de valores { ˜X} para ˜X = 1 definimos a quantidade Π( ˜X = 1, { ˜X}) como a proporção de elementos no conjunto { ˜X} para o qual ˜X = 1 está incluído no intervalo

˜

X± ǫ( ˜X), onde ǫ( ˜X) aparece das flutuações devido à aleatoriedade presente no processo de embaralhamento conforme definido na equação 5.2. Isto leva à proposição da condição

ζ1:

• Condição ζ1: ˜X é considerado informativo se Π( ˜X = 1, { ˜X}) → 0 quando |{X}| →

∞, onde { ˜X} representa um conjunto de valores de ˜X obtido para diferentes línguas

ou textos, e |{ ˜X}| é o número de elementos neste conjunto.

Os resultados obtidos a partir da aplicação de ζ1 (com Π( ˜X = 1, { ˜X}) para todos os três

conjuntos de textos no nosso banco de dados estão ilustrados na Tabela 5.4. As medidas que satisfazem ζ1 estão indicadas com um círculo (•) na Tabela 5.4. Diversas medidas

de rede (d, hLi, hCi, e hki) e os motivos mC, mE e mK não satisfazem completamente ζ1. Consequentemente elas não podem ser usadas para distinguir um manuscrito da

sua versão aleatorizada. Este fato é de certa forma surpreendente já que algumas das medidas anteriores foram úteis para captar sutilezas em textos, por exemplo na tarefa de

No documento Classificação de textos com redes complexas (páginas 100-105)