UNIVERSIDADE DE SÃO PAULO
Instituto de Ciências Matemáticas e de Computação
ISSN 0103—2569
ATRIBUIÇÃO DE AUTORIA USANDO REDES COMPLEXAS PAULOR. A. MARGARIDO
MARIA DAS G.V. NUNES THIAGOA.S. PARDO OSVALDO N.DEOLIVEIRA JR.
LUCIANODA F. COSTA Nº
320
RELATÓRIOS TÉCNICOS
São Carlos
—SPMai./2008
SYSNO
M&M—ª
DATA
___l__l__
ICMC-SBAB
Universidade de São Paulo - USP Universidade Federal de São Carlos - UFSCar Universidade Estadual Paulista - UNESP
Atribuiçã .
.
das G. V. Nunes
-Thiago A. S. Pardo Osvaldo N. de Oliveira Jr.
Luciano da F. Costa
NILC-TR-08-03
Março, 2008
Série de Relatórios do Núcleo Interinstitucional de Lingúística Computacional
NILC
-ICMC-USP, Caixa Postal 668, 13560-970 São Carlos, SP, Brasil
Resumo
Neste
relatório
serão apresentados dois experimentos realizados com base em experimentos do NILC (NúcleoInterinstitucional
de Linguística Computacional) quetiveram
como finalidade avaliar acapacidade
das redes complexas de realizar tarefas deClustering
de autores e deatribuição
deautoria.
Ateoria
de redes complexas vem crescendo no ambiente de pesquisas, e ébastante
recente no meio de PLN (Processamento de LínguaNatural),
e suas capacidades e limitaçõesainda
estão sendo verificadas, o que foi a grande motivaçãopara
a realização destes experimentos.Índice
1
Introdução
2
Redes complexas
2.1 Definição de redes complexas
...
'2.2
. Medidas
utilizadas ...
3
Descrição do corpus
4
Clustering de Autores
5
Atribuição de Autoria
6
Conclusões
Referências Bibliográficas
12 14 15
Capítulo 1 Introdução
As redes complexas
têm recentemente
recebidogrande
visibilidade emvarias
áreas—da com—putação
devido à.sua
flexibilidadepara representar
diversostipos
deproblema.
Seguindoesta
tendência deaumento
de utilização,um
método foi desenvolvidopara representar textos
como redes complexas. Com isso, permitiu—se que várias aplicações clássicas de PLN fossem real— , izadasutilizando
as redes complexas comométodo
derepresentação
detextos
[4], como,por
exemplo, asáreas
deatribuição
deautoria,
avaliação de qualidade [2],sumarização automática, tráduçã'oautomática, entre muitas outras.
Este
trabalho
foiparticularmente
focadona área
deatribuição automática
deautoria.
Umaatribuição
deautoria,
como opróprio
nome indica, consiste emdeterminar
quem é oautor
de um dadotexto cuja
autoria. é desconhecida ou disputada.por
dois ou mais pessoas diferentes.Esta. é
uma tarefa
pouco.trivial, uma
vez queum sistema automático capaz
derealizar esta
atribuição deve sercapaz
dedetectar características
de estilo de umdeterminado autor.
Várias
abordagens automáticas já
foram desenvolvidas, algumas comresultados bastante
positivos,porém a representação
detextos por
redes complexas ainda.não
foidirecionada
a este problema específico, eneste trabalho está descrita
ummétodo
desenvolvido com basena teoria
de redes complexas, e suas medidas.No
capítulo
2está uma
definição mais detalhada. das redes complexas edas métricas
uti- lizadas neàteexperimento.
Ocapítulo
3contém detalhes sobre o corpusutilizado,
e os capítulos 4 e &contêm'de'scrições dos experimentos realizados eseusresultados. Finalmente,
o capítulo6 contém as conclusões
obtidas deste trabalho.
Capítulo 2
Redes complexas
Neste capítulo são brevemente apresentados
tanto
oconceito de redes complexasquanto
algumas das medidas existentes,utilizadas
nestes experimentos.2.1 Definição de redes complexas
Há algum
tempo já
se vem observando a viabilidade da utilização de grafospara
representação e análisecomputacional
de problemas em diversas áreas, com boaquantidade
de resultados positivos. Porém,boa parte
dos casos reais são complexos demaispara
seremestudados
com métodosda teoria
original de grafos, e daí deriva a opção de muitospela
utilização dateoria
maiselaborada
[de redes complexas, Certos grafos comcaracterísticas
especiais, conhecidos como redes complexas, vêm sendo aplicados em crescente escala ao PLN comouma
forma de representaçãocomputacional
de textos. Os experimentos desterelatório
sebaseiam nessa'teoria
e é,
portanto, importante
que sejafeita uma
definição mais formal de redes complexas.O
traço
maisimportante
das redes complexas éque setrata.
de grafos comalto
número de vértices (nós), o quetambém
ocorre em problemas reais [6]. Algumasoutras características
também são relevantes:.
Apesar dotamanho das
redes, 0 número de nósentre
um dadopar'de'i-nósé
relativa.- mente pequeno, isto é, o caminho mínimoentre
dois nóstem
baixo custo. Tais redes são conhecidas como redes mundo pequeno ou small world.'
Quando umgrupo
pequeno em relação aotamanho
da rede possui nós que são fortemente conectadosentre
si,tratarse
de um aglomerado ou um cluster. As redes complexas têm umatendência a ter um alto
coeficiente de aglomeração (definidona
seção22),
isto é,elas
tendem a apresentar
grupos muito coesos.. Outra característica marcante
das redes complexas é ofato
de que elas são livres de ' escala ou scale-free. Isso significa que redes complexastêm
poucos hubs (nós com grandequantidade
de conexões) e muitos nós combaixa quantidade
de conexões, e novos nós adicionadostendem
a se ligar a nósjá
bem conectados.Antes de modelar um
texto
como uma rede complexa,uma etapa
de pré—processamento é realizada, na qual sãoprimeiramente
removidas as stopwords (que sãopalavras
comuns que aumentam otempo
de processmento mas contribuem poucopara
oresultado
final), eem seguida as palavras remanescentes são lematizadas, isto é, flexíonadaspara uma
forma comum (porexemplo,
todos
os verbos são flexionadospara
o infinitivo),para evitar
problemas com dados esparsos, ecada uma
dessaspalavras será um
nóna
rede.,As redes dos
textos utilizados
no experimento sãoentão
criadasda
seguintemaneira
[4]:cada
associaçãoentre palavras
notexto
gerauma
conexãoentre
dois nósna
rede, ecada
associaçãoentre palavras aumenta
em1 opeso desua aresta
correspondente. Valelembrar
quetrata—sede um grafoorientado, isto
é, asarestas
são unidirecionais. Deste modo,quanto
mais vezesuma
associação aparece(na mesma
ordem) notexto,
maior éopeso dessaaresta na
rede. Asarestas obtidas
sãoentão representadas
comouma matriz NzN
, ondeN
é onúmero
de vértices. Apartir
dessa modelagem, otexto passa
a sertratado
simplesmente comouma
rede complexa e éportanto submetido
à análise sob essa perspectiva.2.2 Medidas utilizadas
A
representação
detextos por
redes complexaspermite
vários focos de análiseatravés
de suas diferentes medidas [5]. Algumas dessas medidas foramimplementadas
no NILC eutilizadas
nos experimentos. Segueuma
breve descrição decada uma
delas:.
Outdegree(Grau): uma
rede complexa é,por
definição,um
grafo direcionado com pesos, nas
arestas. Portanto,
devemos levar em consideração ambos os graus deentrada
esaída
de
cada
nó.Entretanto,
dado ométodo
de formaçãoda
rede,cada aresta
que incide em um nótem uma aresta complementar
que sai deste mesmo nó (excetopelas primeira
eúltima palavra,
que se compensam). Por isso osresultados para grau
desaída
egrau
deentrada
são sempre os mesmos, e com isso,apenas
ograu
desaída
foi levado em conta.O
grau
decada
nó ida
rede é medido com a seguinte fórmula:0%) = ZWW)
N (2.1)j=1
Onde
i
ej
são nósda
rede e W(j,z') o pesoda aresta
i —>j.
Amedida
final é a médiaaritmética
dosgraus
detodos
os nósda
rede.'
Clustering Coeiiicient (Coeficiente de aglomeração):para
um nói,
o coeficiente é dadoda
seguinte maneira:quanto
maisarestas
existementre um
vizinho específico de i e osoutros
vizinhos de i, maior é o coeficiente de aglomeração.Isto é, o
CC
verifica quão próximo osubgrafo dos vizinhos do nó 1"da
redeestá
do grafo completo comomesmo número denós
Ovalorda
medida é 1quando todos
os nós de umconjunto
de vizinhos se conectamentre
si. O valorpara a
redetoda
é amédia aritmética
detodos
os CCs.Matematicamente,
temos: sejaE
o conjunto detodos
os nós que seconectam
ao nó i.Temos que
Nº =
|R| eB
éo número dearestas
existentesentre
os nós doconjunto
R.0
CO
do nóR
é calculadoda
seguinte maneira:CC“) = m
B(22)
Se
Nc=0
ouNc=
1,CC(i) =O.
'
.
Components Dynamics Deviation (Desviona
dinâmica dos componentes): 0CDD
éuma medida
que,intuitivamente,
indica.a
uniformidade come.qual
novaspalavras
são inseridas emum texto.
Seu cálculo é feito da seguinte maneira: inicialmente, tem—setodos
os nóse
nenhuma aresta. Então, cada aresta
da rede é adicionada, e onúmero
de componentes conexos écontado
(isto é, é verificado seum
novo nó foi adicionadoà
rede parcial).O desvio da
dinâmica
dos componentes é oresultado da
comparaçãoentre
a curva do número de componentesobtida pela
adição dearestas
e areta ótima, na
qual os nós são adicionados uniformementea cada
novaaresta.
O valorda medida para toda a
rede éa
médiaaritmética
do desviopara todos
ospontos da
curva.Sejam f,, a função
da curva
supracitada.,f,
a funçãoda reta, N
onúmero
de nósna
redee L o número
total
de associações de palavras notexto.
OCDD
é medidoda
seguinteªmem:
ELz=1
Íf
::(Z) —f
3( )lz
= __ 2_
CDD
L ( 3).
Matching index(MI):
omatchingindez
éuma
medidaaplicada
àsarestas,
e observa a similaridadeentre
a conectividade dos dois nós adjacentes &aresta
em questão, isto é, quanto menor o valor do ML menor é a semelhançaentre
as regiões do grafo conectadaspela aresta.
O cálculoda
medida é feitoda
seguinte maneira:O MI
da aresta
i-» j
é o número de conexõescompartilhadas entre i
e j7 isto é,quantas
conexões ambostêm
em comum com um terceiro vértice Ic, dividido pelo númerototal
de conexõesentre
71,[c ej,
lcª(exceto conexõesentre
i ej).
Como o grafo deum texto
é direcionado, sãotomadas
comoarestas compartilhadasapenas
as quem possuem a mesma direção.Matematicamente,
temos:. , Ekçéi
'ªikªjk
MI
(z,]
): —'ª—
Zica“ ªi!:+ Zk#j ªjk
(2.4).
Hierarchical Degree(Grau
Hierárquico):para
definir oGH,
é necessárioprimeiramente
definir os conceitos dedistância
e anel. Adistância entre
os nós i ej
serátomada
nesterelatório
como onúmero
dearestas
necessárias para. se chegar do nó i ao nój.
Porexemplo, os vizinhos (diretos) de um nó sempre
têm distância
1 do mesmo.Já
o anelRd(i) de distância. d do nó i é o conjunto de todos os nós que
distam
d dei
(os nós com distâncias menores do que dtambém
são desconsiderados).O
grau
hierárquico dedistância
(1 de um nó1” pode então ser definido comoo número dearestas
queconecta
os anéis Rd(i) e Rd_1(i). Também éfeita
a diferenciaçãopela
direção dasarestas, resultando
em graus hierárquicos desaída
e deentrada.
Nos experimentos queutilizaram
o GH, adistância utilizada
foi 2, com8variações:todas
as combinações deentrada/saída,
acumulado/
não-acumulado, compeso/sem
pesodas arestas.
Otermo
acu—mulado indica que,
para
calcular o grau hierárquico dedistância
d, os graus dedistância
l-até
d— 1 devem ser somados ao valor finalda
medida.Capítulo 3
Descrição do corpus
Neste
capítulo está uma
breve descrição do experimento, contendo informações sobre o corpus utilizado. O corpus deste experimento consistiu de 31 livrosde 6autores
consagrados da língua inglesa. Os livros foram utilizadosna
sua versão original,e ostamanhos
dostextos
seencontram
na tabela
3.1.Tabela
3.1: Autores e livrospertencentes
ao corpus deste experimento, com ostítulos
originais em inglêsAutor Livros Palavras utilizadas
Charles Dickens A Tale ofTwo Cities 60000
' American Notes 46000
David Copperfield 158000
Great Expectations
80000Hard Times 48000
' -
Master Humphrey's
Clock 20000Oliver
Twist
76000The
Old Curiosity Shop 102000The
SevenPoor
Travelers 4000Ernest
HemingwayThe Garden
of Eden 28000Green Hills of Africa 28000 Lewis
Carroll
Alice's Adventures in Wonderland 12000Sylvie
and
Bruno 30000Through the
Looking-Glass 14000Pelharn G. Wodehouse My Man Jeeves 22000
Tales of St.
Austin's
24000The
Adventures of Sally 36000The
Clicking ofCuthbert
28000The
Gem Collector 16000The
Man with Two Left Feet 32000The Pothunters
18000,
The
Swoop 8000The White Feather
20000Thomas Hardy
A Changed Man andOther
Tales 38000A Group of Noble Dames 30000
Desperate
Remedies 64000Far from
the
Madding Crowd 64000The
Hand ofEthelberta
60000Virginia
WoolfJacob's
Room 28000Night and Day 76000
The
VoyageOut
64000Este corpus,
embora seja
pequeno, contémum
número razoável de livros, que embora. pe- quenostêm tamanho
osuficientepara
a realização deste experimento, e 31 livros éuma
quan-tidade
quepermite
aobtenção
dosresultados
desejados, que serãodescritos
nocapítulo
4.Capítulo 4
Clustering de Autores
Dois
experimentos
foram realizados com ointuito
de avaliar acapacidade das
redes complexaspara detectar características
de estilo deum autor
[3]: oprimeiroconsistiu num agrupamento,
ouClustering
dosautores descritos na
seção3. OClustering
consiste emtentar
diferenciar osau—tores
deuma
base detextos
(semnecessariamente atribuir
aautoria
detextos não-pertencentes à
base). A seguirestá uma
descrição do desenvolvimentodeste experimento.
Para
oClustering
deautores,
decada um
dos 31textos
descritosanteriormente na
seção 3foram extraídas
as 2000primeiras
associações de palavras, ecada uma das medidas descritas
em 2.2 foiextraída para textos
detamanho
crescente, isto é,para cada quantidade
de associações depalavras
(de 1a
2000),gerando uma
curva de evolução dasmedidas
conforme otamanho
dostextos.
A figura 4.1 exemplificaesta
evolução.Dasvlo na dinâmica das componente!)(Associacões Razão curve real/curvonluatade(um módulo)
0.08 3.0
0.07 2.5
ª º
aos ,E82.0 005
3E 0,04
;
E 1.5E “.É
<a a
É 0.03 2
É
"É”
0.02
0.5 0.01
º.ººl|lll||yl||yl|!|l]l
O 200 400 600 5001000120014001600180020000,G|1||x|||||||||||v|1
0 200 400 600 800100012001400150018002000Associações Associações
Figura
4.1: Áesquerda,
valores deCDD para
as 2000primeiras
associações do livroAmericanNotes,
de Dickens. Adireita, flutuação
relativa. conformea
evolução detamanho
dotexto
Após
a extração
dos valores decada
medida, foifeita uma aproximação da curva utilizando
o Método dos Mínimos
Quadrados
Generalizado (MMQG)para obter um
polinômio degrau
3 quecondensa toda
a evolução deuma dada medida
em 4coeficientes(curva
empreto na
figura 4.1, gráficoda esquerda).
A análise final foi
feita
apartir
destes coeficientes, não levando emconta
os valores reais das medidas. Os seguintes valores foram utilizados:.
OD_c0.
CDD_c0.
GHnns_c0.
GHnss_c0.
OD_c1.
CDD_c1.
GHnns_cl.
GHnss_c1.
OD_erro.
CDD_erro.
GHnns_erro.
GHnss_erroonde
GHnns
significaGrau
Hierárquico não acumulado(apenas
oúltimo
anel é levado em conta, osanteriores
sãodescartados),
desaída
ecom pesos nasarestas,
GHnss é omesmo, mas os graus considerados são deentrada,
CD ecl
são os coeficientes degrau
0 e 1,respectivamente
e erro é
a somatória
do móduloda
diferença dos valoresentre curva real
ecurva aproximada
(azul epreta na
figura 4.1)para
os 2000 valores. O motivopara
02 eC?»terem
sidodescartados
é o fato de que estes são
muito
pequenos (pode-se dizer que as curvas sãomuito
”horizontais”, pois oeixodas
associações émaior,
oque gera valores pequenospara garus
maiores).Uma
Análise de Variáveis Canônicas (CVA) foirealizada
sobre os valoresdescritos
acima, e osresultados obtidos estão na
figura 4.2, ondecada
correpresenta
umautor
diferente ecada
ponto
éum
livro.0,8
.
40.6- 4
á '4
;
J .ª º 4M—w
;
o.ª [Ll-1
3
0— &
<; .4
'é
:*,-n,z— & :?
é
*
J 3.1
.“-
+)(- Dinka:MamyCami +| J *1.
Wnndhuuse &o Hlfúy
“ºlª“ o Woolf
+1
41.8 | 1 I | |
414 41.3 411 dll 11 D1 D.]
Figura
4.2:Resultados
doClustering
deautores
Os
resultados obtidos neste experimento
sãomuito
positivos, pelosseguintes
motivos:todos
osautores ficaram
em regiõesbastante
definidas do gráfico, exceto Dickens eHardy
(números1 e 5,
respectivamente),
o queindica
queaté certo ponto
as redes complexas são capazes dedetectar
informações de estilo deum autor bastante
precisamente. Valerealçar
aqui que oClustering na verdade separa
estilos, e nãoautores, portanto
se doisautores
escreveram dois livros de estilos próximos, provavelmente esses livrosresultariam
próximos emuma
análiseestilística.
Osautores
Dickens eHardy tinham
estilosnotadamente parecidos
deescrita,
o que explicaparte da proximidade observada entre
os livros dos doisautores
noClustering.
Apenas
comocomplemento deste experimento, para
verificara viabilidade deste método para textos
menores, foram selecionadosaleatoriamente
(mas do mesmoperíodo) textos
de4
autores
dojornal
The London Telegraph, [1]: Grif Rhys Jones,Jenny McCartney, Matthew d'Ancona,
NigelFarndale.
Aquantidade
de associaçõesutilizada
foide341 (máximo possível demodo a uniformizar
o corpus) e o scatter—plat de 4.3 foi gerado pelo mesmo processoanterior.
Novamente, os
autores
ficam em regiões definidas, com poucospontos
fugindoà
regra. Otamanho
dostextos
ébem menor
do que noexperimento anterior,
o que explica amaior ocorrência
de erros, masainda
assim éum resultado bastante
positivo.10
Má
+ (“Lionel
)( J.McCen-n=y
012—' *4
' . MMM
N,Fsmáale+5
ELES—
U.D4— 19
3
."u
IS.
16+ O
D- ' 1
“
]
,,1 éº .133 »xª -I].I14
]
!
*14
,?
41.08 | | I I I
41.04 -D.DZ 41.02 «0.01 0 0.01 0.02
Mais
uma
vez, ficademonstrado
que as redes complexas são capazes de identificar carac—terísticas importantes
de estilo deescrita,
eportanto
épossíveltentar uma abordagem
que se utilize de redespara atribuição
deautoria,
e ademais, as redes semostraram
capazes deboa performance
mesmoquando
ostextos utilizados
sãobastante
pequenos, o quepode
definirum
nicho de aplicação.11
Figura
4.3: Novosresultados
de classificação0.03
Capítulo 5
Atribuição de Autoria
O segundo
experimento
descrito neste relatório éuma atribuição
deautoria propriamente dita
[3] Com osresultados
obtidos noClustering
dos autores, viu-se possíveltentar
realizaresta tarefa,
que consiste em,tendo uma
base de textos,encontrar
oautor
de umtextos
não—pertencente
a base.O
procedimento
realizadoneste
experimento é o seguinte: cadatexto
foi dividido em seg- mentos de 2000 associações de palavras, e em seguida as redes complexas foram criadaspara cada
segmento. Como o custoseria
computacional seria muitogrande para
calcular as medi—das de
maneira cumulativa
(como descrito nocapítulo
4), calculou-seapenas
asmétricas
sobretextos
de 2000 associações, oque seria equivalente aoúltimo ponto
no eixo das associações da figura 4.1. Com isso,cada
segmento de 2000palavras
proporcionouapenas
um valorpara
cada métrica.O procedimento
anterior resultou
em diversos valores separados.Para
relaciona—los, o ambí—ente Weka [9] foi usado
para executar
diversos métodos de aprendizado demáquina,
usando os valores das medidas comoinstâncias
de aprendizado. Osresultados
estão dispostosna tabela
5.1.
Tabela
5.1:Resultados da atribuição
deautoria.
Como esperado, conforme aquantidade
deinstâncias aumenta, também aumenta
a precisão dos métodos' Método / Acertos em
% 31segmentos 92 segmentos 669 segmentos
Regras 26 43 54
Árvores de decisão 29 40 50
Redes bayesianas 32 42 42
Naive—bayes 35 38 40
Redes Neurais 45 54 62
Como era.esperado, conforme
aumenta
aquantidade
deinstâncias
de aprendizado, melhor é a precisão dos métodos. A maior precisãoatingida
é de 62%, mas acredita—se que isso seja devido a ausência de maisinstâncias
de aprendizado,uma
vez que os métodos de aprendizadonormalmente
precisam de milhares de instâncias para.atingirem sua
precisão máxima. Estima—se que com um córpus maior se consiga
atingir
a precisão dos métodos deestado da arte,
que chega a mais de 90% em alguns casos [7, 8].Numa
tentativa
demelhorar
a.precisão deste método, a seguintecomparação
foi feita:para
12
cada segmento de 2000 palavras, os dois métodos descritos
anteriormente
(o queutiliza
os polinômios aproximadores e o que usaapenas
um valor por segmento) foram comparados como instâncias deaprendizado para
os métodos de aprendizado de máquina, Osresultados
se en—contram
na tabela
5.2.Tabela
5.2: Comparaçãoentre
valores dos coeficientese das medidasMétodo / Acertos em
%Coeficientes dos polinômios Valores das medidas
Regras 35 26
Arvores de decisão 32 29
Redes bayesianas 29 32
Naive-bayes 39 35
Redes Neurais 42 45
Pode ser visto que o
método
dos coeâcientes geraresultados
mais precisosna
maioria dos casos,etem
performance semelhante nosoutros
casos. Isto eraaté certo ponto
esperado7uma
vez que este
método
avaliatoda
a evolução de um texto, ao invés de olharpara
um único ponto. Oproblema deste método
é que o consumo detempo
émuitogrande,
pelo menos com os recursos computacionais disponíveis hoje. Provavelmente, estemétodo
será viável conforme os computadores avancem, eapenas
então seria possível averiguar se ométodo
dos coeficientes éde fato melhor.Para
validar a precisão deste método, tentou-se comparar com ométodo
descrito em [7], quese baseiana teoria
de modelos de língua. Modelos de língua sãobasicamente
um método de associar acada
sequêncianatural
de palavras uma probabilidade. Nestetrabalho,
a idéiaé associar a
cada
sequência depalavras
que de fato ocorre emum
córpusuma probabilidade
maior do que a deuma
sequência que nunca ocorre.Porém, os
resultados
não correspondem aos descritos em [7],uma
vez que, nagrande
maioria dos casos, osistema
não foi capaz dedeterminar
qual era oautor
dotexto.
Acredita-se que isso seja devido aotamanho limitado
do córpus, não sendo suficientepara treinar
devidamenteo sistema, o que reforça
ainda
mais a hipótese de que as redes complexas são melhores quando ostextos
são menores.13
Capítulo 6
Conclusões
Os
resultados obtidos
nos experimentos descritos nesterelatório
sãomuito
positivos, nãoapenas
porque foi desenvolvidoum sistema
deatribuição
deautoria
deboa
precisãousando
recursos simples e com forteembasamento matemático,
mastambém porque demonstram uma
extensãoda
aplicabilidade de redes complexas na.área
de PLN. Ateoria
de redes complexas ébastante
redente;daí
aimportância
desebuscar
semprepor
novastarefas
que possam ser resolvidas.Embora
ométodo
desenvolvido não sejatão
preciso quanto alguns existentes, um nicho dessa aplicação pode ser em aplicações onde aquantidade
detextos
élimitada,
ou ostextos
são pequenos, sem quehaja
a necessidade de grandes corpuspara
que ométodo
seja eficiente.Mas talvez o
resultado
maisimportante
aqui descrito seja ademonstração da
capacidade das métricas de redes complexas emdetectar características
de estilo deum texto,
o quetorna
plausível acontinuação da busca por
novas métricas ou novas áreas de aplicação das redes em PLN.14
Referências Bibliográficas
[1]
http://www.te1egraph.co.uk/,
Setembro 2007.[2] L.
Antiqueira,
M.G.V. Nunes, O.N. OliveiraJr.,
and L.da
F. Costa. Strong correlations betweentext quality
and complex networks features. Physica A, 373:811—820, 2006.[3] L.
Antiqueira,
T.A.S. Salgueiro, M.G.V. Nunes, and O.N. OliveiraJr.
Some issues on complex networks forauthor characterization.
Revista Iberoamericana de [A, n. 36, 11:51—58, 2007.
[4] Lucas
Antiqueira, Maria
das Graças V. Nunes, Osvaldo N. de OliveiraJr.,
and Luciano: da F. Costa. Modelando
textos
como redes complexas, Technicalreport, Instituto
de CiênciasMatemáticas
e de Computação, 2005.[5] L.
da
F.Costa,
F. A. Rodrigues, G. Travieso, and P. R. Villas Boas.Characterization
of complex networks: A survey of measurements. arXiv:cond—mat/0505185,
2006.[6] R. Ferrer i Cancho
and
R. V. Solé.The
small world of human language. P. Roy. Soc. Land.B Bia., 26812261, 2001, l
[7] F. Peng, D. Schuurmans, V. Keselj, and S. Wang. Language
independent authorship attri- bution
usingcharacter
level language models.In
Proceedingsof
EACL, 2003.[8] E.
Stamatatos,
N. Fakotakis, and G. Kokkinakis.Automatic authorship attribution.
In Proceedings of EACL, 1999.[9] Ian H.
Witten and
Eibe Frank.Data
Mining:Practical
Machine Learning Tools and Tech- niques. MorganKaufmann,
second edition,June
2005.15