Os hiperparˆametros do modelo lstm-attention foram obtidos a partir do problema de caracteriza¸c˜ao de gˆenero do c´orpus BRBlogSet, com valida¸c˜ao cruzada de 3 parti¸c˜oes. Novamente, esta estrat´egia foi definida devido ao elevado tempo de treinamento desse tipo de modelo. A tabela 12 apresenta os hiperparˆametros ´otimos deste modelo.
Para a representa¸c˜ao textual, o tratamento foi o mesmo aplicado nos modelos lstm-w2v e cnn-w2v anteriores.
Para o modelo de LSTM, foi definido o hiperparˆametro de unidades de mem´oria units=128, os valores de aten¸c˜ao s˜ao obtidos a partir dos estados ocultos da LSTM. Para essa etapa, foi utilizado uma MLP com n´umero de neurˆonios attention-n=seq, e em sequida, os hiperparˆametros de regulariza¸c˜ao dropout d=0, 2 e n´umero de neurˆonios na camada final f c=512. O treinamento da rede ´e realizado com o algoritmo de otimiza¸c˜ao RMSProp com learning-rate=1 e fun¸c˜ao de custo de entropia cruzada, com batch-size=32. A tabela 16 apresenta os hiperparˆametros generalizados para os problema de CA.
Quadro 11 – Hiperparˆametros considerados para o modelo lstm-attention Hipeparˆametro Intervalo de valores
vocab 1000 - max
seq 50 - mean
units 64 - 256
dropout 0,1 - 0,5
fc 512 - 2048
Fonte: Rafael Felipe Sandroni Dias (2019)
Quadro 12 – Hiperparˆametros ´otimos para lstm-attention
vocab seq embed dim units attention-n dropout fc
max mean word2vec 100 128 seq 0.2 512
Fonte: Rafael Felipe Sandroni Dias (2019)
6.7 CNN Multicanal + Char (cnn-char)
Os hiperparˆametros do modelo cnn-char tamb´em foram obtidos a partir do problema de caracteriza¸c˜ao de gˆenero do c´orpus BRBlogSet, com valida¸c˜ao cruzada de 3 parti¸c˜oes,
devido ao elevado tempo de treinamento desse tipo de modelo. A tabela 14 apresenta os hiperparˆametros ´otimos obtidos.
A representa¸c˜ao textual ´e realizada dividindo o texto por senten¸cas, cada caracter ´
e representado por um vetor de tamanho dim=72, com um limiar m´aximo de caracteres por senten¸ca seq=char mean (i.e., m´edia de caracteres por senten¸ca). O vocabul´ario de caracteres ´e ilustrado abaixo.
abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:’\"/\\|_@#$%^&*~‘+-=<>()[]{}
O modelo de CNN utiliza dois canais de convolu¸c˜ao ch=2 com filtros de tamanho
kernel=3-4, ambos canais com mapeamento de tamanho map=64, usando a fun¸c˜ao de ativa¸c˜ao
relu e regulariza¸c˜ao L2 de reg=0, 003 e agrupamento m´aximo de tamanho pool=2. Seguido de
uma camada totalmente conectada de f c=1024 neurˆonios usando fun¸c˜ao de ativa¸c˜ao relu e
regularza¸c˜ao Dropout (SRIVASTAVA et al., 2014) de d=0, 3, e ao final uma camada de sa´ıda
usando fun¸c˜ao softmax. O treinamento ´e realizado em mini-lotes de tamanho batch=32 usando
o algoritmo de otimiza¸c˜ao RMSProp e fun¸c˜ao de custo de entropia cruzada. A valida¸c˜ao do
treinamento ´e realizada com 20% dos dados do conjunto de treinamento e executada at´e o modelo
convergir, usando a t´ecnica de EarlyStopping.
Quadro 13 – Hiperparˆametros considerados para o modelo cnn-char Hiperparˆametro Intervalo de valores
vocab 27
seq char mean
ch 2 - 3
k 2 - 9
map 10 - 100
d 0,1 - 0,5
fc 512 - 2048
Fonte: Rafael Felipe Sandroni Dias (2019)
Quadro 14 – Hiperparˆametros ´otimos para cnn-char
max features seq embed. dim ch k map d fc
max mean chars 27 2 3-4 64 0.2 512
6.8 LSTM com Mecanismo de Aten¸c˜ao + Char (lstm-char)
Os hiperparˆametros do modelo lstm-char tamb´em foram obtidos a partir do problema de
caracteriza¸c˜ao de gˆenero do c´orpus BRBlogSet, com valida¸c˜ao cruzada de 3 parti¸c˜oes, devido ao
elevado tempo de treinamento desse tipo de modelo. A tabela 15 apresenta os hiperparˆametros
´
otimos obtidos.
A representa¸c˜ao textual ´e realizada dividindo o texto por senten¸cas, cada caracter ´e
representado por um vetor de tamanho dim=27, com um limitar m´aximo de caracteres por
senten¸ca seq=char mean (i.e., m´edia de caracteres por senten¸ca). O vocabul´ario considerado ´e ilustrado abaixo.
abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:’\"/\\|_@#$%^&*~‘+-=<>()[]{}
O modelo de lstm-char utiliza unidades de mem´oria de tamanho units=128 e regulariza¸c˜ao Dropout de d=0, 2, seguido de uma camada oculta de f c=512 neurˆonios com fun¸c˜ao de ativa¸c˜ao
ReLu e uma camada de sa´ıda usando softmax. O treinamento ´e realizado usando o algoritmo
de otimiza¸c˜ao AdaDelta e fun¸c˜ao de custo de entropia cruzada. A valida¸c˜ao do treinamento ´e
realizado com 20% dos dados do conjunto de treinamento e executada at´e o modelo convergir,
usando a t´ecnica de EarlyStopping.
Quadro 15 – Hiperparˆametros considerados para o modelo lstm-char Hipeparˆametro Intervalo de valores
vocab 27
seq char mean
units 64 - 128
d 0.1 - 0.5
fc 512 - 2048
Fonte: Rafael Felipe Sandroni Dias (2019)
Quadro 16 – Hiperparˆametros ´otimos para lstm-char
vocab seq embed dim units attention-n dropout fc
max char mean chars 27 64 seq 0.12 512
7 Avalia¸c˜ao
Neste cap´ıtulo, s˜ao apresentados os resultados gerais dos modelos computacionais propos-
tos, baseados nos conjuntos de teste dos respectivos c´orpus de CA. Os modelos computacionais
desenvolvidos foram aplicados para cada um dos 21 problemas de CA, totalizando 147 conjuntos
de resultados. Nas se¸c˜oes seguintes, os resultados s˜ao organizados por tarefas, e para cada
tarefa s˜ao apresentados os resultados de medida F (F1 score), e os melhores desempenhos s˜ao
destacados.
Nesta avalia¸c˜ao, as m´etricas foram computadas usando a m´edia-macro, mantendo-se
pesos iguais para todas as classes e as classes foram balanceadas com o m´etodo SMOTE de
sobreamostragem (CHAWLA et al., 2002). A tarefa de caracteriza¸c˜ao de gˆenero dos c´orpus The
Blog Authorship e PAN-CLEF 13 n˜ao receberam o tratamento de sobreamostragem.
´
E importante destacar que o modelo reglog-tfidf, descrito no cap´ıtulo 6, ser´a demoninado neste cap´ıtulo como simplesmente baseline para facilitar a an´alise comparativa.