• Nenhum resultado encontrado

Resultados da classificação

No documento Classificação de textos com redes complexas (páginas 126-129)

Análise de estilo de textos

6.1 Reconhecimento de autoria

6.1.1 Resultados da classificação

Os resultados sumarizados na Tabela 6.2 indicam que as taxas de acerto variam entre 42,5 % e 50,0 % quando todos os atributos são utilizados. Os resultados são estatisticamente significativos (ver Tabela 6.3), o que confirma que os atributos estudados capturam sutilezas de escrita que são especifícas para cada autor. A fim de analisar mais em detalhe o desempenho dos diferentes métodos, consideramos os casos em que apenas alguns atributos foram incluídos nos algoritmos. Foram testadas 215 combinações de 15

atributos obtendo-se uma taxa de acerto máxima igual a 65,0 %.

6.1.2 Relevância de atributos

Para entender a dependência entre estilo de autores e as métricas estudadas, identifi- camos a relevância de cada atributo segundo o método AUC. Neste método a relevância dos atributos é avaliada considerando suas possíveis inter-relações. Os resultados para os três melhores algoritmos de reconhecimento de padrões estão ilustrados nas colunas 2-4 da Tabela 13.4. Os três atributos que aparecem como mais importantes são hNi, γI e hNi2.

A classificação da relevância das métricas parece ser pouco dependente do algoritmo de reconhecimento de padrões. De fato, o coeficiente de correlação de ranks de Spearmana

confirma a consistência observada. Esta é uma forte indicação de que a análise vai além de resultados específicos de algoritmos e de fato captura a influência dos atributos.

Também é importante comparar os resultados de relevância considerando cada atributo de forma isolada. Este tipo de análise foi realizado verificando a taxa de acerto dos

aAs correlações observadas foram 0, 29 (p-value = 0, 145), 0, 49 (p-value = 0, 032) e 0, 67 (p-value = 0, 003) respectivamente

para os pares C4.5/κ-NN, C4.5/Bayes e κ-NN/Bayes. Neste caso, os p-values são calculados adotando como hipótese nula que os ranks são independentes.

6.1. Reconhecimento de autoria 125

Tabela 6.4– Rank de atributos baseado na taxa de acerto dos classificadores. 1 significa primeira posição,

2 significa segunda posição e assim por diante. Os resultados para cada classificador (C4.5, κ-NN e Bayes) estão ilustrados para cada um dos métodos de quantificação de relevância: método AUC (análise conjunta, colunas 2-4) e método KL (análise isolada, coluna 5). A análise isolada também foi realizada verificando a taxa de acerto de cada algoritmo, quando apenas um dos atributos é utilizado (colunas 6-8). A última coluna mostra o coeficiente de correlação de Pearson entre cada atributo e o tamanho do vocabulário M (número de palavras distintas) calculado em todos os 40 livros. Os atributos na tabela estão ordenados em ordem decrescente da média geométrica dos ranks obtidos nos 3 métodos (esta ordenação corresponde também aos ranks da probabilidades de cada atributo obter ao acaso um rank igual ou melhor ao obtido nos 3 esquemas de ordenação).

Análise Conjunta Análise Isolada Correlação C4.5 κ-NN Bayes KL C4.5 κ-NN Bayes com M

hNi2 6 1 1 3 2 5 1 -0,90 γI 2 2 2 10 12 9 10 -0,08 hNi 1 6 3 2 1 2 3 -0,96 hLi 7 4 6 9 5 3 8 0,85 hBi 5 8 5 1 3 1 2 0,98 hIi2 10 3 10 15 15 12 12 -0,34 hLi2 8 7 8 8 5 7 5 0,85 hCi 12 11 4 6 5 5 5 -0,87 γL 4 13 11 13 10 9 13 -0,13 γB 3 14 14 11 8 9 9 -0,07 hBi2 9 9 9 7 9 14 5 0,88 hCi2 11 10 7 5 4 3 4 -0,87 hIi 13 5 12 12 13 15 10 -0,29 γN 15 12 13 4 10 8 13 0,81 γC 14 15 15 14 14 12 15 0,07

classificadores quando apenas o atributo é utilizado na classificação. A relevância isolada também foi analisada com o método KL. Os resultados estão ilustrados nas colunas 5-8 da Tabela 13.4. Note que alguns atributos com alta relevância no método que considera a interação de atributos não são discrimativos quando analisados isoladamente (p.e., a assimetria da intermitência γI). Por outro lado, atributos que são bem classificados na

análise de atributos isolada nem sempre aparecem entre os mais bem classificados na análise de relevância que considera a interação entre atributos. A influência das métricas estudadas no estilo de autores pode ser resumida da seguinte maneira:

• Frequência: esta foi a quantidade mais eficiente no reconhecimento de autoria, em que hNi e hNi2 aparecem entre os três atributos mais importantes. Isto significa

que o número distinto de palavras no texto também é um fator importante no reconhecimento de autoria, já que

hNi = comprimento do livro

M (6.1)

e o comprimento do livro foi mantido constante. A média modificada hNi2 = hlog Ni

também captura este aspecto, incluindo a proporção de palavras frequentes e pouco frequentes. Por outro lado, o fraco desempenho de γN (= α em p(N) ∼ N−α)

possivelmente é consequência da universidalidade da lei de Zipf (para um tamanho de livro fixo (9)).

• Betweenness: o betweenness se mostrou útil devido à sua correlação com o tamanho do vocabulário M (veja última coluna da Tabela 13.4). Em termos de rede, esta relação corresponde a uma relação linear entre hBi e o tamanho da rede (M é o número de vértices). hBi2 e γB apresentaram baixa relevância para a tarefa. Este

resultado sugere que o número de palavras com alto betweenness não é um atributo relevante para distinguir o estilo de autores.

• Caminhos mínimos: este foi o atributo de rede que apresentou melhor desempenho. hLi quantifica a distância típica das palavras aos hubs da rede (i.e., as palavras mais frequentes). O bom desempenho aponta para uma dependência no estilo dos autores. Com relação às quantidades hLi2 e γL, o desempenho foi inferior ao observado para

hLi. Isto indica que a dependência de estilo em L é mais forte para valores típicos do que para valores de palavras frequentes.

• Coeficiente de aglomeração: o fraco desempenho de todas as quantidades relaci- onadas ao coeficiente de aglomeração sugere que autores possuem pouca liberdade para variar esta medida em redes de co-ocorrência. A última posição no rank de

γC na Tabela 13.4 sugere que a fração das palavras usadas em contextos específicos

6.1. Reconhecimento de autoria 127

de autores. As duas médias hCi e hCi2 assumem valores similares e são relevantes

apenas quando usadas isoladamente, possivelmente devido à sua correlação com o tamanho do vocabulário M.

• Intermitência: após a medida de frequência, a intermitência foi a quantidade mais relevante na Tabela 13.4. Em especial, a assimetria da distribuição γI desempenha

papel fundamental na discriminação de autoria. Isto quer dizer que a fração de palavras utilizadas como palavras-chave representa um fator importante para reco- nhecer autoria. Por outro lado, a média simples hIi foi pouco relevante. Dentre todas as quantidades analisadas, aquela que apresentou o menor valor absoluto de correlação com a frequência foram as medidas de intermitência, o que explica porque

γI apresentou fraco desempenho quando avaliado isoladamente. Finalmente, hIi2

apresentou desempenho melhor que hIi, sugerindo que a intermitência das palavras mais frequentes é mais relevante que a intermitência de todas as palavras do texto.

No documento Classificação de textos com redes complexas (páginas 126-129)