LSTM com Mecanismo de Aten¸ c˜ ao + Word Embedding (lstm-attention)

Os hiperparâmetros do modelo lstm-attention foram obtidos a partir do problema de caracteriza¸cão de gênero do córpus BRBlogSet, com valida¸cão cruzada de 3 parti¸cões. Novamente, esta estratégia foi definida devido ao elevado tempo de treinamento desse tipo de modelo. A tabela 12 apresenta os hiperparâmetros ótimos deste modelo.

Para a representa¸c˜ao textual, o tratamento foi o mesmo aplicado nos modelos lstm-w2v e cnn-w2v anteriores.

Para o modelo de LSTM, foi definido o hiperparâmetro de unidades de memória units=128, os valores de aten¸cão são obtidos a partir dos estados ocultos da LSTM. Para essa etapa, foi utilizado uma MLP com número de neurônios attention-n=seq, e em sequida, os hiperparâmetros de regulariza¸cão dropout d=0, 2 e número de neurônios na camada final f c=512. O treinamento da rede é realizado com o algoritmo de otimiza¸cão RMSProp com learning-rate=1 e fun¸cão de custo de entropia cruzada, com batch-size=32. A tabela 16 apresenta os hiperparâmetros generalizados para os problema de CA.

Quadro 11 – Hiperparˆametros considerados para o modelo lstm-attention Hipeparˆametro Intervalo de valores

vocab 1000 - max

seq 50 - mean

units 64 - 256

dropout 0,1 - 0,5

fc 512 - 2048

Fonte: Rafael Felipe Sandroni Dias (2019)

Quadro 12 – Hiperparˆametros ´otimos para lstm-attention

vocab seq embed dim units attention-n dropout fc

max mean word2vec 100 128 seq 0.2 512

Fonte: Rafael Felipe Sandroni Dias (2019)

6.7 CNN Multicanal + Char (cnn-char)

Os hiperparâmetros do modelo cnn-char também foram obtidos a partir do problema de caracteriza¸cão de gênero do córpus BRBlogSet, com valida¸cão cruzada de 3 parti¸cões,

devido ao elevado tempo de treinamento desse tipo de modelo. A tabela 14 apresenta os hiperparˆametros ´otimos obtidos.

A representa¸c˜ao textual ´e realizada dividindo o texto por senten¸cas, cada caracter ´

e representado por um vetor de tamanho dim=72, com um limiar máximo de caracteres por senten¸ca seq=char mean (i.e., média de caracteres por senten¸ca). O vocabulário de caracteres é ilustrado abaixo.

abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:’\"/\\|_@#$%^&*~‘+-=<>()[]{}

O modelo de CNN utiliza dois canais de convolu¸c˜ao ch=2 com filtros de tamanho

kernel=3-4, ambos canais com mapeamento de tamanho map=64, usando a fun¸c˜ao de ativa¸c˜ao

relu e regulariza¸c˜ao L2 de reg=0, 003 e agrupamento m´aximo de tamanho pool=2. Seguido de

uma camada totalmente conectada de f c=1024 neurônios usando fun¸cão de ativa¸cão relu e

regularza¸c˜ao Dropout (SRIVASTAVA et al., 2014) de d=0, 3, e ao final uma camada de sa´ıda

usando fun¸c˜ao softmax. O treinamento ´e realizado em mini-lotes de tamanho batch=32 usando

o algoritmo de otimiza¸cão RMSProp e fun¸cão de custo de entropia cruzada. A valida¸cão do

treinamento ´e realizada com 20% dos dados do conjunto de treinamento e executada at´e o modelo

convergir, usando a t´ecnica de EarlyStopping.

Quadro 13 – Hiperparˆametros considerados para o modelo cnn-char Hiperparˆametro Intervalo de valores

vocab 27

seq char mean

ch 2 - 3

k 2 - 9

map 10 - 100

d 0,1 - 0,5

fc 512 - 2048

Fonte: Rafael Felipe Sandroni Dias (2019)

Quadro 14 – Hiperparˆametros ´otimos para cnn-char

max features seq embed. dim ch k map d fc

max mean chars 27 2 3-4 64 0.2 512

6.8 LSTM com Mecanismo de Aten¸c˜ao + Char (lstm-char)

Os hiperparˆametros do modelo lstm-char tamb´em foram obtidos a partir do problema de

caracteriza¸cão de gênero do córpus BRBlogSet, com valida¸cão cruzada de 3 parti¸cões, devido ao

elevado tempo de treinamento desse tipo de modelo. A tabela 15 apresenta os hiperparˆametros

otimos obtidos.

A representa¸cão textual é realizada dividindo o texto por senten¸cas, cada caracter é

representado por um vetor de tamanho dim=27, com um limitar m´aximo de caracteres por

senten¸ca seq=char mean (i.e., média de caracteres por senten¸ca). O vocabulário considerado é ilustrado abaixo.

abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:’\"/\\|_@#$%^&*~‘+-=<>()[]{}

O modelo de lstm-char utiliza unidades de memória de tamanho units=128 e regulariza¸cão Dropout de d=0, 2, seguido de uma camada oculta de f c=512 neurônios com fun¸cão de ativa¸cão

ReLu e uma camada de sa´ıda usando softmax. O treinamento ´e realizado usando o algoritmo

de otimiza¸cão AdaDelta e fun¸cão de custo de entropia cruzada. A valida¸cão do treinamento é

realizado com 20% dos dados do conjunto de treinamento e executada at´e o modelo convergir,

usando a t´ecnica de EarlyStopping.

Quadro 15 – Hiperparˆametros considerados para o modelo lstm-char Hipeparˆametro Intervalo de valores

vocab 27

seq char mean

units 64 - 128

d 0.1 - 0.5

fc 512 - 2048

Fonte: Rafael Felipe Sandroni Dias (2019)

Quadro 16 – Hiperparˆametros ´otimos para lstm-char

vocab seq embed dim units attention-n dropout fc

max char mean chars 27 64 seq 0.12 512

7 Avalia¸c˜ao

Neste cap´ıtulo, s˜ao apresentados os resultados gerais dos modelos computacionais propos-

tos, baseados nos conjuntos de teste dos respectivos c´orpus de CA. Os modelos computacionais

desenvolvidos foram aplicados para cada um dos 21 problemas de CA, totalizando 147 conjuntos

de resultados. Nas se¸c˜oes seguintes, os resultados s˜ao organizados por tarefas, e para cada

tarefa s˜ao apresentados os resultados de medida F (F1 score), e os melhores desempenhos s˜ao

destacados.

Nesta avalia¸cão, as métricas foram computadas usando a média-macro, mantendo-se

pesos iguais para todas as classes e as classes foram balanceadas com o m´etodo SMOTE de

sobreamostragem (CHAWLA et al., 2002). A tarefa de caracteriza¸cão de gênero dos córpus The

Blog Authorship e PAN-CLEF 13 n˜ao receberam o tratamento de sobreamostragem.

E importante destacar que o modelo reglog-tfidf, descrito no cap´ıtulo 6, ser´a demoninado neste cap´ıtulo como simplesmente baseline para facilitar a an´alise comparativa.

No documento Caracterização autoral a partir de textos utilizando redes neurais artificiais (páginas 87-90)