Fase de Testes - ABORDAGEM SVM - Atribuição automática de autoria de obras da literatura brasil

Equação 10: Honore

1. INTRODUÇÃO

3.4. ABORDAGEM SVM

3.4.3. Fase de Testes

Como visto anteriormente, ao término das etapas de extração dos atributos, é criado um arquivo contendo os valores dos atributos selecionados no texto, com a finalidade de definir um perfil para o documento a partir das características colhidas.

Devido à etapa de extração de atributos ter sido dividida em duas fases, o mesmo aconteceu com a fase de classificação. Inicialmente, foram feitos os testes com os arquivos gerados contendo atributos baseado nas palavras. Na

segunda parte da etapa de testes, foram realizados os testes com a seleção de atributos pelas palavras-função.

Para realização dos testes com o SVM, como já visto anteriormente, foi utilizada a biblioteca LibSVM integrada ao ambiente WEKA. A rápida e fácil integração com o WEKA resulta em uma maior produtividade nos testes. Isso devido ao fato de que é possível ajustar rapidamente diversos parâmetros do classificador. Além disso, a própria ferramenta já disponibiliza um conjunto de parâmetros padrão, que não implica ser o mais adequado para todos os contextos [BG04].

Na verdade, não há um ajuste dos atributos do SVM bem definido na literatura que seja mais apropriado para cada contexto [BG04]. A busca por um ajuste adequado deve ser encontrada por meio de testes, a serem realizados manualmente pelo pesquisador.

A etapa de classificação demandou um alto esforço justamente na busca por um conjunto de parâmetros que fosse mais adequado para o contexto do presente trabalho. Houve variações no kernel do algoritmo LibSVM, no parâmetro normalize e no k-folds, em busca da combinação mais apropriada.

Neste trabalho, os testes com o SVM foram realizados com validação cruzada e o tipo do SVM (SMType) usado foi o nu-SVC (classification). Houve variação dos k-folds, de 2 a 12, para cada arquivo de teste. Outra alteração realizada no SVM foi com relação a opção de normalizar os dados, que foi ajustado para realizar a normalização (normalize igual a true). Um registro que deve ser feito é que o kernel utilizado foi baseado no mesmo utilizado em [Pav07], o kernel linear. Na Figura 9, os atributos que foram alterados estão marcados em vermelho, bem como o destaque para o local em que ocorreram as modificações dos k-folds.

Figura 9: Atributos alterados no SVM para testes

O motivo de não utilizar o SVM que vem juntamente com o ambiente WEKA, o SMO, foi que o custo computacional para se trabalhar com este algoritmo é alto. Em testes realizados com o SMO, foram demandados minutos para se obter uma única taxa de classificação. Já utilizando a biblioteca LibSVM, os testes rapidamente geraram os resultados, sendo requerido cerca cinco segundos para obtenção de cada taxa de classificação. Na seção de resultados será melhor discutido o tempo de processamento para completar uma etapa de teste.

Tipo do SVM Tipo do Kernel Normalização dos dados K-folds para validação cruzada

3.4.4. Implementação

As ferramentas implementadas, neste momento, foram responsáveis pela extração automática dos atributos existentes nos textos. Não houve implementação, ou alteração, da biblioteca LibSVM. A linguagem de programação Java foi utilizada para criação do aplicativo para seleção dos atributos no texto.

O protocolo de treinamento e de testes para ambos os conjuntos de atributos selecionados foi a criação de um vetor de dissimilaridade apenas para os verdadeiros autores. Vetor de dissimilaridade é um vetor de características, ou seja, é onde se têm os valores dos atributos extraídos do texto. Dessa forma, gerar vetores apenas para os verdadeiros escritores é realizar associação das características extraídas de um texto ao autor correto. Como são quatro documentos por autor, têm-se quatro vetores de dissimilaridades para cada escritor.

Para implementação da ferramenta de extração de atributos baseado nas palavras, inicialmente foi formado um bloco de palavras. A quantidade de vocábulos existente nesse bloco foi de 1000. Para cada bloco criado, eram obtidos todos os atributos que foram informados na Seção 3.4.1. Após a obtenção desses atributos, era realizada uma média aritmética entre a soma dos valores dos atributos obtidos para cada bloco pela quantidade de blocos que foi formada. Caso o último bloco a ser formado não obtivesse exatamente a quantidade de palavras informada – 1000 palavras, este era descartado.

Com o processamento realizado por esta ferramenta, o arquivo gerado contendo os atributos obedeceu a uma regra de formação. Esta regra é necessária para que a ferramenta WEKA consiga manipular os atributos colhidos.

A formatação especial a que o arquivo gerado teve de se adequar foi com relação à adição de um cabeçalho, onde se identifica os atributos selecionados do texto e seu tipo, bem como às classes de categorias

suportadas, e aos valores dos atributos extraídos. A formatação do arquivo (.arff) gerado, pode ser visto na Figura 10.

Figura 10: Arquivo gerado com os atributos baseado nas palavras

Já na implementação da ferramenta de seleção de palavras-função, foi utilizada a estrutura de dados tabela hash. As chaves da tabela eram as conjunções ou os advérbios, enquanto que o valor era um número inteiro contabilizando a freqüência de ocorrência de cada palavra-função.

Como as palavras-função a serem colhidas podiam conter até três vocábulos, primeiramente o texto foi percorrido buscando aquelas que continham três palavras, depois aquelas compostas por até duas palavras e, por último, a palavra-função com uma única palavra. No entanto, deve-se ter o cuidado de não se repetir a freqüência de uma palavra-função que está contida em outra. Por exemplo, ao encontrar a conjunção “visto que” deve-se

Atributos Atributo Autor (Classes) Valores dos Atributos Relação

incrementar a freqüência apenas dessa subordinativa causal, não incrementando o atributo referente à conjunção “que”.

Após a execução da ferramenta implementada, um arquivo (.arff) também foi gerado, que pode ser vista na Figura 11. Percebe-se que os atributos selecionados, logo nas primeiras linhas do arquivo, são diferentes do que aqueles expostos na Figura 10.

: :

Figura 11: Arquivo gerado com os atributos baseado nas palavras-função

Explanando sobre o arquivo .arff obtido pela execução das duas ferramentas, a palavra @relation identifica qual o título da relação. Já a palavra

@attribute gera um novo atributo e estabelece um tipo. Neste trabalho, apenas

seqüência de palavras @attribute author apresenta as classes de categorias possíveis, ou seja, os autores suportados pela base de dados. A partir da palavra @data, são disponibilizados os valores dos atributos previamente descritos. Cada linha obtida a partir da palavra @data representa um conjunto de valores para os atributos de um dado documento e ao final dessa linha é identificado o autor correspondente àquele conjunto de atributos. O separador utilizado para associar os valores aos atributos corretos é a vírgula.

3.5. COMENTÁRIOS FINAIS

Neste capítulo, foram vistos os procedimentos necessários para se classificar documentos literários com o PPM e com o SVM. Percebeu-se que não existe etapa de extração de atributos para o PPM, enquanto que para o SVM utilizou-se duas abordagens para extração de atributos. No entanto, a etapa de seleção das obras literárias e do pré-processamento realizado foi a mesma para ambas as abordagens.

No próximo capítulo, serão vistos os resultados obtidos com estas abordagens, apresentando matrizes de confusão que possibilita identificar os autores que tiveram seus textos corretamente classificados.

4. RESULTADOS

A apresentação dos resultados, da mesma forma que ocorreu na Seção 3, foi dividida de duas formas. Os resultados serão apresentados de acordo com a abordagem que foi utilizada, PPM ou SVM.

Todos os testes, para ambas as metodologias, foram realizados em uma máquina com configuração Intel Core 2 Duo de 2Ghz, memória RAM de 2 GBytes, 800 Mhz de Barramento e 320 GBytes de disco rígido, utilizando o sistema operacional Windows XP Professional de 32 bits.

4.1. RESULTADOS COM O PPM

Com os testes utilizando a abordagem PPM, foi realizado um total de 60368 atribuições de autoria. A fórmula para se chegar a esse número é entendida da seguinte forma,

QtdAtt = QtdCont * QtdFases * QtdFTeste * ValidCruzada * QtdAutores

onde:

• QtdAtt é a quantidade total de atribuições realizadas;

• QtdCont é a quantidade de contextos que foram utilizados nos momentos de treinamento e testes, simultaneamente, que neste trabalho foram 11 (de 0 a 10);

• QtdFases é a quantidade de fases que houve na etapa de treinamento, sendo 7;

• QtdFTeste é a quantidade de variações que houve do tamanho do arquivo de teste, que também foi 7;

• ValidCruzada é a quantidade de permutações que houve em um

arquivo de treinamento, neste caso foram 4. Pode ser entendida também como a quantidade de textos;

• QtdAutores é a quantidade de classes de autores presentes na base de dados, 28 nesta proposta.

Para cada teste realizado, foi desenvolvida uma matriz de confusão. Também foi criada uma planilha mostrando todas as RCs para cada rodada realizada. Não é o enfoque deste trabalho, mas caso tenha-se a necessidade de se ver a co-relação entre textos e autores, e qual foi a diferença em que se classifica incorretamente, é possível encontrar com essa matriz.

A Tabela 6 mostra as dez taxas de classificação com maior quantidade de acerto obtida nos testes gerais. Ele está ordenado de ordem crescente pela taxa de acerto das atribuições realizadas. A primeira coluna da tabela identifica o código que identificará o teste. A segunda coluna informa o tamanho do contexto utilizado. A terceira coluna apresenta o tamanho total do arquivo de treinamento, enquanto a quarta coluna expõe o tamanho do arquivo utilizado para teste. A quinta e última coluna mostra a taxa correta de classificação.

Serão mostradas, ainda, as matrizes de confusão com relação a três resultados presentes na Tabela 6, cujos identificadores são RS_01, RS_06 e RS_10, para melhor explanação da atribuição realizada. Dessa forma, é possível identificar quais autores tiveram mais erros e quais tiverem mais textos atribuídos a ele incorretamente.

Tabela 6: Resultados da taxa de classificação por arquivo de treinamento

ID Contexto Treinamento (KB) Teste (KB) Taxa de Acerto (%)

RS_01 7 192 64 92,8 RS_02 8 192 64 92,8 RS_03 7 192 32 92,0 RS_04 8 192 32 91,1 RS_05 9 192 64 91,1 RS_06 6 192 64 90,2 RS_07 10 192 64 89,3 RS_08 9 192 32 88,4 RS_09 10 192 32 88,4 RS_10 5 192 64 87,5

Percebe-se que os maiores índices de acerto foram obtidos quando o arquivo de treinamento possuiu 192 Kbytes e o tamanho dos arquivos de teste com tamanho igual ou superior a 32 Kbytes. Além disso, apenas os contextos entre 5 e 10 representaram as 10 taxas expostas na Tabela 6. No maior índice de acerto, as linhas contendo os identificadores RS_01 e RS_02 tiveram apenas oito textos atribuídos incorretamente, de um total de 112 classificações na rodada.

Outro fato que pode ser verificado na Tabela 6 é que aumentar o contexto não significa melhoria na atribuição de autoria. Variando o contexto de zero até sete significou melhoria. No entanto, utilizando o contexto oito, manteve-se a mesma taxa do contexto sete, e, ainda, levou-se mais tempo para o processo de classificação. Já a partir do contexto nove, começou a diminuir a taxa de acerto. Portanto, neste trabalho, os contextos que atingiram o melhor índice de classificação foram o sete e o oito.

Para uma melhor explanação e entendimento dos resultados, foi criada a matriz de confusão referente a cada classificação, onde se verificam quais textos foram atribuídos incorretamente.

As matrizes de confusão expostas neste trabalho podem ser entendidas da seguinte forma: as linhas são representadas pelos quatro textos dos autores que foram classificados; as colunas são os autores que foram selecionados como autor de um dado texto; e a célula representa a quantidade de textos de um dado autor (linha) que foi atribuído a um escritor (coluna). Resumindo, pode- se entender que o texto de um escritor da linha foi atribuído ao autor de uma determinada coluna.

Os números presentes nas linhas e nas colunas da matriz de confusão representam os autores suportados pela base. A seguir estão os nomes dos autores que cada número referencia: (01) Adolfo Caminha; (02) Alcântara Machado; (03) José Alencar (Histórico); (04) José Alencar (Urbano); (05) Aluísio Azevedo; (06) Bernardo Guimarães; (07) Camilo Castelo Branco; (08) Clarice Lispector; (09) Érico Veríssimo; (10) Euclides da Cunha; (11) Fernando Sabino; (12) Graciliano Ramos; (13) João Ubaldo; (14) Joaquim Manuel Macedo; (15) Jorge Amado; (16) Julia Almeida; (17) Lima Barreto; (18) Luis Fernando

Veríssimo; (19) Lya Luft; (20) Lygia Fagundes Telles; (21) Machado de Assis (Realismo); (22) Machado de Assis (Romance); (23) Mário Prata; (24) Moacyr Scliar; (25) Monteiro Lobato; (26) Raul Pompéia; (27) Rubem Fonseca; (28) Visconde Taunay.

Tabela 7: Matriz de confusão da fase de treinamento referente a RS_10

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 01 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 02 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 04 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 06 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 14 0 0 0 0 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 1 0 0 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 1 0 0 0 0 0 0 0 0 0 0 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 1 0 0 0 0 19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 1 23 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 24 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 3 0 0 27 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 1 0 28 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4

Na matriz de confusão do resultado referente ao identificador RS_10, na Tabela 7, pode-se observar que foram obtidas 98 classificações corretas, das 112 realizadas. Nesta classificação, nenhum autor teve todas as suas obras atribuídas incorretamente. Apenas o escritor Rubem Fonseca (27) teve uma obra classificado corretamente (Bufo e Spallanzani). Os autores José de Alencar (Histórico) (3) e Joaquim Manuel Macedo (14) tiveram duas obras incorretamente classificadas. Sendo assim, as obras de três escritores

obtiveram mais de 50% dos erros ocorridos nessa fase – 7 de 12, e outros cinco autores tiveram exatamente uma obra erroneamente classificada.

A matriz de confusão referente ao identificador RS_06, exposta na Tabela 8, apresenta o resultado onde se obteve 101 classificações corretas. As três classificações corretas obtidas a mais, com relação à matriz de confusão da RS_10, foram a atribuição correta de dois textos de Rubem Fonseca (27), a atribuição correta de todas as obras literárias de Machado de Assis (Romance) (22) e, também, todos o êxito total na classificação dos textos da autora Júlia Almeida (16). Os demais erros, existentes nesta classificação, foram os mesmos, ou seja, as mesmas obras atribuídas incorretamente nos testes, excluindo as que já foram citadas, identificados pelo RS_10, também foram classificadas incorretamente.

Tabela 8: Matriz de confusão da fase de treinamento referente a RS_06

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 01 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 02 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 04 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 06 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 14 0 0 0 1 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 1 0 0 0 0 19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 23 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 24 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 3 0 0 27 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 2 0 28 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4

Já a matriz de confusão do resultado referente à maior taxa de acerto obtida, 104 atribuições com êxitos de 112, pode ser vista na Tabela 9. Esse resultado foi obtido com dois contextos diferentes, o sete e o oito, mas com todas as características iguais, tanto do tamanho do arquivo de treinamento como o tamanho do arquivo usado para teste. A melhoria que se pode observar nesta matriz é a melhoria da quantidade de obras classificadas corretamente para o escritor Rubem Fonseca (27), aumentando para três obras classificadas com êxito, e o acerto de 100% nos livros de Fernando Sabino (11).

Tabela 9: Matriz de confusão da fase de treinamento referente a RS_01

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 01 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 02 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 03 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2 0 0 04 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 05 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 06 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 07 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 08 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 09 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 10 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 12 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 14 0 0 0 1 1 0 0 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 0 16 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 0 17 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 0 0 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0 0 1 0 0 0 0 19 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 0 20 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 0 21 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 0 22 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 0 23 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 0 24 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 0 25 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4 0 0 0 26 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 3 0 0 27 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 3 0 28 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 4

O que se pode observar dos 10 resultados com as maiores taxa de classificação corretas é que o resultado referente ao identificador RS_10 foi de 98 classificações corretas e no RS_01 foi de 104, de um total de 112 classificações.

Percebe-se que no resultado identificado por RS_10 foram 14 classificações incorretas, enquanto no RS_01 foram 8. Entre o décimo melhor resultado até o melhor resultado, houve diminuição na taxa de erro de cerca 43%, diminuindo a quantidade de textos classificados incorretamente de 14 para 8.

Com relação à eficiência computacional de todo o processo de atribuição de autoria, pode-se dividir em duas fases. O tempo levado na etapa de treinamento, incluindo a criação do arquivo de treinamento, e o tempo requerido para classificação.

O tempo levado para criação do arquivo de treinamento foi rápido, pois todos os textos dos autores foram carregados em memória. Com isso, o custo computacional para obtenção desse arquivo era apenas delimitar o tamanho de cada documento a ser inserido no documento para treinamento dos modelos. O tempo levado ficou em média entre 5 e 10 segundos.

Para a etapa de treinamento, o tempo requerido variou de acordo com o tamanho do contexto e o tamanho do arquivo de treinamento, tendo este último influência maior no custo computacional. Com arquivos de treinamento menores, em até 48 Kbytes, rapidamente os modelos para os autores eram obtidos, ficando em torno de 10 segundos. Já com os textos para treinamento maiores, aqueles com tamanho de 96 e 192 Kbytes, o tempo para a fase de treinamento podia chegar a 150 segundos.

4.2. RESULTADOS COM O SVM

Os resultados referentes ao processo de extração de atributos e à utilização da abordagem SVM para realizar a atribuição de autoria foi dividida

em duas fases. O motivo dessa divisão é que, como já apresentado, duas formas de extração de atributos foram implementadas. Com relação aos resultados, serão apresentados os dez que obtiveram as maiores taxas de acerto e, também, duas matrizes de confusão referentes ao décimo e ao melhor resultado obtido.

No documento Atribuição automática de autoria de obras da literatura brasileira (páginas 60-74)