• Nenhum resultado encontrado

LSTM com Mecanismo de Aten¸ c˜ ao + Word Embedding (lstm-attention)

Os hiperparˆametros do modelo lstm-attention foram obtidos a partir do problema de caracteriza¸c˜ao de gˆenero do c´orpus BRBlogSet, com valida¸c˜ao cruzada de 3 parti¸c˜oes. Novamente, esta estrat´egia foi definida devido ao elevado tempo de treinamento desse tipo de modelo. A tabela 12 apresenta os hiperparˆametros ´otimos deste modelo.

Para a representa¸c˜ao textual, o tratamento foi o mesmo aplicado nos modelos lstm-w2v e cnn-w2v anteriores.

Para o modelo de LSTM, foi definido o hiperparˆametro de unidades de mem´oria units=128, os valores de aten¸c˜ao s˜ao obtidos a partir dos estados ocultos da LSTM. Para essa etapa, foi utilizado uma MLP com n´umero de neurˆonios attention-n=seq, e em sequida, os hiperparˆametros de regulariza¸c˜ao dropout d=0, 2 e n´umero de neurˆonios na camada final f c=512. O treinamento da rede ´e realizado com o algoritmo de otimiza¸c˜ao RMSProp com learning-rate=1 e fun¸c˜ao de custo de entropia cruzada, com batch-size=32. A tabela 16 apresenta os hiperparˆametros generalizados para os problema de CA.

Quadro 11 – Hiperparˆametros considerados para o modelo lstm-attention Hipeparˆametro Intervalo de valores

vocab 1000 - max

seq 50 - mean

units 64 - 256

dropout 0,1 - 0,5

fc 512 - 2048

Fonte: Rafael Felipe Sandroni Dias (2019)

Quadro 12 – Hiperparˆametros ´otimos para lstm-attention

vocab seq embed dim units attention-n dropout fc

max mean word2vec 100 128 seq 0.2 512

Fonte: Rafael Felipe Sandroni Dias (2019)

6.7 CNN Multicanal + Char (cnn-char)

Os hiperparˆametros do modelo cnn-char tamb´em foram obtidos a partir do problema de caracteriza¸c˜ao de gˆenero do c´orpus BRBlogSet, com valida¸c˜ao cruzada de 3 parti¸c˜oes,

devido ao elevado tempo de treinamento desse tipo de modelo. A tabela 14 apresenta os hiperparˆametros ´otimos obtidos.

A representa¸c˜ao textual ´e realizada dividindo o texto por senten¸cas, cada caracter ´

e representado por um vetor de tamanho dim=72, com um limiar m´aximo de caracteres por senten¸ca seq=char mean (i.e., m´edia de caracteres por senten¸ca). O vocabul´ario de caracteres ´e ilustrado abaixo.

abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:’\"/\\|_@#$%^&*~‘+-=<>()[]{}

O modelo de CNN utiliza dois canais de convolu¸c˜ao ch=2 com filtros de tamanho

kernel=3-4, ambos canais com mapeamento de tamanho map=64, usando a fun¸c˜ao de ativa¸c˜ao

relu e regulariza¸c˜ao L2 de reg=0, 003 e agrupamento m´aximo de tamanho pool=2. Seguido de

uma camada totalmente conectada de f c=1024 neurˆonios usando fun¸c˜ao de ativa¸c˜ao relu e

regularza¸c˜ao Dropout (SRIVASTAVA et al., 2014) de d=0, 3, e ao final uma camada de sa´ıda

usando fun¸c˜ao softmax. O treinamento ´e realizado em mini-lotes de tamanho batch=32 usando

o algoritmo de otimiza¸c˜ao RMSProp e fun¸c˜ao de custo de entropia cruzada. A valida¸c˜ao do

treinamento ´e realizada com 20% dos dados do conjunto de treinamento e executada at´e o modelo

convergir, usando a t´ecnica de EarlyStopping.

Quadro 13 – Hiperparˆametros considerados para o modelo cnn-char Hiperparˆametro Intervalo de valores

vocab 27

seq char mean

ch 2 - 3

k 2 - 9

map 10 - 100

d 0,1 - 0,5

fc 512 - 2048

Fonte: Rafael Felipe Sandroni Dias (2019)

Quadro 14 – Hiperparˆametros ´otimos para cnn-char

max features seq embed. dim ch k map d fc

max mean chars 27 2 3-4 64 0.2 512

6.8 LSTM com Mecanismo de Aten¸c˜ao + Char (lstm-char)

Os hiperparˆametros do modelo lstm-char tamb´em foram obtidos a partir do problema de

caracteriza¸c˜ao de gˆenero do c´orpus BRBlogSet, com valida¸c˜ao cruzada de 3 parti¸c˜oes, devido ao

elevado tempo de treinamento desse tipo de modelo. A tabela 15 apresenta os hiperparˆametros

´

otimos obtidos.

A representa¸c˜ao textual ´e realizada dividindo o texto por senten¸cas, cada caracter ´e

representado por um vetor de tamanho dim=27, com um limitar m´aximo de caracteres por

senten¸ca seq=char mean (i.e., m´edia de caracteres por senten¸ca). O vocabul´ario considerado ´e ilustrado abaixo.

abcdefghijklmnopqrstuvwxyz0123456789-,;.!?:’\"/\\|_@#$%^&*~‘+-=<>()[]{}

O modelo de lstm-char utiliza unidades de mem´oria de tamanho units=128 e regulariza¸c˜ao Dropout de d=0, 2, seguido de uma camada oculta de f c=512 neurˆonios com fun¸c˜ao de ativa¸c˜ao

ReLu e uma camada de sa´ıda usando softmax. O treinamento ´e realizado usando o algoritmo

de otimiza¸c˜ao AdaDelta e fun¸c˜ao de custo de entropia cruzada. A valida¸c˜ao do treinamento ´e

realizado com 20% dos dados do conjunto de treinamento e executada at´e o modelo convergir,

usando a t´ecnica de EarlyStopping.

Quadro 15 – Hiperparˆametros considerados para o modelo lstm-char Hipeparˆametro Intervalo de valores

vocab 27

seq char mean

units 64 - 128

d 0.1 - 0.5

fc 512 - 2048

Fonte: Rafael Felipe Sandroni Dias (2019)

Quadro 16 – Hiperparˆametros ´otimos para lstm-char

vocab seq embed dim units attention-n dropout fc

max char mean chars 27 64 seq 0.12 512

7 Avalia¸c˜ao

Neste cap´ıtulo, s˜ao apresentados os resultados gerais dos modelos computacionais propos-

tos, baseados nos conjuntos de teste dos respectivos c´orpus de CA. Os modelos computacionais

desenvolvidos foram aplicados para cada um dos 21 problemas de CA, totalizando 147 conjuntos

de resultados. Nas se¸c˜oes seguintes, os resultados s˜ao organizados por tarefas, e para cada

tarefa s˜ao apresentados os resultados de medida F (F1 score), e os melhores desempenhos s˜ao

destacados.

Nesta avalia¸c˜ao, as m´etricas foram computadas usando a m´edia-macro, mantendo-se

pesos iguais para todas as classes e as classes foram balanceadas com o m´etodo SMOTE de

sobreamostragem (CHAWLA et al., 2002). A tarefa de caracteriza¸c˜ao de gˆenero dos c´orpus The

Blog Authorship e PAN-CLEF 13 n˜ao receberam o tratamento de sobreamostragem.

´

E importante destacar que o modelo reglog-tfidf, descrito no cap´ıtulo 6, ser´a demoninado neste cap´ıtulo como simplesmente baseline para facilitar a an´alise comparativa.

Documentos relacionados