Combinação dos dicionários e limites das classes

MPQA Subjectivity Lexicon

6.2 Combinação dos dicionários e limites das classes

Como discutido anteriormente, um dos benefícios da utilização da Programação Genética como técnica de Aprendizado de Máquina é a possibilidade de leitura e inter-

pretação dos modelos gerados. Desse modo, é possível analisar os resultados, de forma a entender o processo da solução [96].

Devido a maneira com que gera e avalia os modelos, a PG, de certa forma, realiza uma seleção de features, determinando as funções mais relevantes para o problema em que está sendo aplicada [66]. Com base no exposto, uma análise dos resultados obtidos com os experimentos pode evidenciar as funções e características consideradas mais significativas para a avaliação do benchmark pela PG.

Uma verificação da utilização dos dicionários incluídos na solução e a impor- tância dada a eles pela PG (por meio dos pesos) pode revelar os léxicos mais adequados ao problema em questão, ou seja, os que forneceram maior benefício para o processo de avaliação do benchmark.

A Figura 6.2 apresenta os valores médios dos pesos de cada um dos dicionários para os dois cenários testados neste trabalho (PG e PGa). Note que esse valor representa

as médias dos pesos atribuídos para cada um dos léxicos nos 30 modelos gerados em cada versão.

Figura 6.2: Média dos pesos por dicionário utilizado nos modelos da PG e PGa

Como se pode observar, em ambos os tipos de PG considerados, a importância dos dicionários para a solução do benchmark manteve-se estável, ou seja, os que possuem maior peso são os mesmos. Além disso, os léxicos Effect (w6) e NRC (w8) receberam

os menores valores em todos os modelos, com pesos abaixo de de 0.001. É importante salientar que a baixa relevância de um dicionário em determinado domínio não implica que o mesmo atribui polaridades incorretas às palavras, mas tão somente que o léxico não foi expressivo para determinada estratégia e benchmark. O dicionário AFINN (w3) obteve

o maior peso entre os léxicos utilizados, ou seja, a PG entendeu que ele auxilia de forma mais eficaz na maximização das predições dos modelos, seguido dos dicionários VADER (w4) e LIU (w1).

Assim como foi feito com relação aos valores dos pesos dos dicionários, as fronteiras de cada classe, definidas pela PG por meio da função neutralRange, foram levantadas. Essa característica é importante e permite a definição de limites dinâmicos nos valores de cada classe disponível, dependendo da combinação de funções e dicionários utilizados. A análise pormenorizada desses valores é, portanto, valiosa para entender como os modelos estão atribuindo polaridades para as mensagens.

A Figura 6.3 apresenta um gráfico que demonstra os valores mais utilizados para os limites inferior e superior da classe neutra. É possível perceber que o menor valor definido para o limite inferior foi pouco maior que -1. Da mesma forma, a maior medida para esse limite foi 4, desconsiderando o outlier2. Apesar disso, pode-se notar que mais de 75% dos valores atribuídos para o limite inferior são maiores que zero, ou seja, positivos.

Figura 6.3: Valores limite da classe neutra

Do mesmo modo, é possível visualizar que o menor valor definido para o limite superior foi zero, ou seja, todas as entradas foram positivas e 75% delas estão entre 0 e 4, sendo o maior valor encontrado igual a 7. O valor médio para cada um dos limites é apresentado em detalhes na Tabela 6.10.

Tabela 6.10: Valores médios dos limites da classe neutra definidas pela PG

Média

Limite inferior (IR) Limite superior (SR)

1.0226 2.0080

Os valores apresentados na Tabela anterior demonstram uma adequação, por parte da PG, dos limites da classe neutra, com uma preferência para valores positivos. Essa adaptação pode estar sendo feita para balancear os resultados provenientes das avaliações feitas por meio dos dicionários. Isso demonstra, também, que a utilização da divisão clássica entre os valores dos limites, atribuindo a classe neutra somente para saídas igual a zero (como demonstrado em 4-12), não foi a configuração mais adequada encontrada pela PG.

É interessante, ainda, fazer uma análise do melhor modelo resultante do processo de evolução da Programação Genética. Por conta dos resultados superiores obtidos, será considerado o melhor indivíduo gerado na versão PGa do experimento e, para facilitar a

distinção, será referenciado como mbest nos textos que seguem. A Figura 6.4 representa os

valores dos limites inferior e superior da classe neutra definidos para o modelo analisado.

Figura 6.4: Valores limite das classes para o modelo mbest

Como é possível observar, em mbest o limite inferior da classe neutra foi definido

pela PG como sendo zero absoluto, ou seja, manteve-se o valor padrão. O limite superior, entretanto, foi alterado, e teve como média 0.841. Isso reforça a adequação feita pelos modelos com relação às fronteiras das classes. Com isso, o resultado r ∈ R da avaliação das mensagens t ∈ T pelo modelo mbest segue a regra apresentada a seguir:

r=          positivo, m_best(t) > 0.841 neutro, 0 ≤ mbest(t) ≤ 0.841 negativo, m_best(t) < 0

A análise das saídas do classificador mbest pode demonstrar o comportamento

geral da solução e como o modelo está atribuindo as classes para as entradas. Como é demonstrado na Figura 6.5, mais de 75% das saídas do modelo são maiores que zero.

Isso não significa, entretanto, que as clases resultantes são todas positivas, uma vez que, como demonstrado nas Figuras 6.3 e 6.4, os limites de valores para a classificação foram alterados.

Esse comportamento reflete diretamente o desbalanceamento da classe negativa nas bases de treinamento e teste, que contém somente 15% e 17% de mensagens desse tipo, respectivamente. Levando essa diferença em consideração, é possível perceber que as adequações realizadas pela PG tendem a priorizar saídas positivas e uma redefinição do limite superior da classe neutra.

É possível perceber que a Programação Genética conseguiu adequar-se ao problema proposto, realizando a ponderação dos dicionários e os ajustes nos limites de cada classe. A técnica mostrou-se competitiva e muitas vezes superior em comparação com outras abordagens clássicas, como demonstrado nos resultados anteriores.

Figura 6.5: Valores de saída do modelo mbestpara cada uma das bases de teste

A PG, entretanto, demanda o maior tempo de treinamento quando comparada com as outras técnicas utilizadas. Isso acontece principalmente pelo fato da necessidade de avaliação de cada um dos indivíduos para o cálculo do respectivo fitness. Há algumas formas de tentar minimizar esse impacto, como a paralelização – por sua característica de funcionamento, a PG possui alto grau de paralelismo [56]. Além disso, há variantes da técnica que podem diminuir o custo desses processos, como a Root Genetic Programming (RGP), publicada em [66].

No documento Aplicação de Programação Genética na Análise de Sentimentos (páginas 104-109)