Self-training - Organização da monografia

SUMÁRIO 1 INTRODUÇÃO

B.4.1 Painel de estatísticas

1.3 Organização da monografia

2.3.1 Self-training

O self-training é um modelo iterativo de aprendizado semissupervisionado onde um classificador baseado em AM age como um anotador, classificando dados e aprendendo com suas próprias anotações.

2.3. Aprendizado Semissupervisionado 31

nualmente para ser aplicado a um conjunto de dados sem anotação. Em seguida, os documentos que possuem maior confiança nessa classificação são inseridos no conjunto de dados anotados, enquanto é feito um novo treinamento sobre este novo conjunto.Zhu e Goldberg(2009) definem self-trainingcomo um modelo de aprendizado que usa suas próprias predições para ensinar a si mesmo.

Apesar de simples, diversos autores relataram bons resultados obtidos com self-training na literatura em PLN, como na tarefa de desambiguação lexical (YAROWSKY, 1995) e no melhoramentos de classificação em cross-domain nas tarefas de parsing (MCCALLUM; NIGAM et al.,1998) e anotação de papéis semânticos (SAGAE,2010).

O funcionamento da abordagem se baseia na adição de novos elementos com caracterís- ticas ainda não analisadas pelo classificador na base de treinamento, para exemplificar citaremos um exemplo a seguir.

Suponhamos que um classificador de polaridades binário (positivo e negativo) aprenda que a incidência do verbo “amei” indique forte positividade, enquanto nenhum documento do treinamento indique que “gostei” funcione de maneira semelhante. Ao classificar a sentença “Amei aquele filme e adorei aquele ator”, o modelo atesta uma probabilidade alta desse documento pertencer à classe positiva, portante ele é adicionado ao conjunto de treinamento. Sendo retreinado agora, o modelo se modifica e aprende que o termo “gostei” também possui uma pequena chance de indicar positividade, o que favorece a classificação de novas sentenças.

O método de self-training funciona iterativamente e pode ser implementado de diversas maneiras, porém certos cuidados devem ser tomados a fim de que o método funcione correta- mente.

O primeiro cuidado é a definição de uma regra de adição ao córpus de treinamento. Dependendo da tarefa na qual o self-training é utilizado, será necessário observarmos a eficiência dos próprios classificadores utilizados, isto é, um classificador que obtém 70% de acurácia em uma tarefa acertará a classificação de sete a cada dez documentos que classificar.

Um valor muito baixo de threshold pode fazer com que documentos classificados equi- vocadamente sejam adicionados ao conjunto de treino, propagando o erro ao longo da execução. Isso se agrava ainda mais se na primeira iteração do algoritmo essa situação for muito incidente. Já o oposto, a definição de um threshold muito alto pode aumentar consideravelmente o número de iterações e até mesmo enviesar a classificação para classes onde os classificadores possuam mais facilidade em analisar. Em nosso caso, a classe neutra é consideravelmente mais complexa de ser definida (tanto linguisticamente quanto pelos classificadores baseados em AM) do que a positiva e a negativa, isso pode fazer com que em cada iteração existam menos exemplos da classe sendo adicionados ao conjunto de treino.

O próprio modelo de classificação também tem um papel muito importante no self- training(ZHU; GOLDBERG,2009). Um modelo de difícil generalização ou um treinamento

que faça overfitting pode influenciar negativamente na adição de novos documentos, visto que os dados adicionados serão sempre muito semelhantes aos já anotados, diminuindo a variação de novos fenômenos no conjunto de treino.

A utilização dessa abordagem é muito comum na tarefa de classificação de polaridades entre competidores do evento SemEval (BAUGH,2013;BECKER et al.,2013;ZHAO; LAN; ZHU,2014). Além disso ela já foi empregada com bons resultados na tarefa em inglês (XIANG; ZHOU,2014;SILVA et al.,2016).

2.3.2 Co-training

Uma desvantagem do self-training é que a adição de novos documentos é completamente dependente do classificador usado. Intuitivamente, a utilização de mais de um classificador poderia oferecer maior confiança para que um documento seja adicionado ou não ao conjunto de treinamento.

O co-training é uma abordagem iterativa semelhante ao self-training, mas que utiliza mais de um modelo de classificação durante o processo de aprendizado semissupervisionado (BLUM; MITCHELL,1998).

O treinamento de um classificador baseado em AM pode ser visto como a minimização de uma função de custo que divide um espaço. Dependendo da observação de tal espaço, um método de self-training consegue aprender com mais confiança um conjunto de documentos. No co-training, dois espaços ou mais são formados usando diferentes representações para o mesmo conjunto de dados, dessa maneira, em cada iteração serão formados dois ou mais conjuntos de dados mais confiáveis. A ideia do co-training é que essa visualização espacial múltipla consiga trazer para modelos distintos dados classificados com confiança pelos demais modelos.

A Figura 8 ilustra o exemplo acima. Nela, temos no lado esquerdo um espaço bidi- mensional com dados sendo classificados em duas classes, sendo que os dados mais distantes do corte são considerados mais confiáveis. Ao lado vemos outro classificador analisando os mesmos dados, porém usando uma representação espacial que os dispõe de maneira diferente no espaço. Observando onde os dados (facilmente separáveis no espaço da esquerda) são dispostos nesse espaço, podemos supor que muitos dos pontos classificados com confiança pelo primeiro classificador seriam descartados pelo segundo. Da mesma forma, a recíproca também é válida. SegundoZhu(2005), são necessárias três condições para o uso de co-training: 1) deve ser possível dividir em dois grupos as features usadas na modelagem dos documentos; 2) cada subdivisão de feature deve ser suficiente para treinar um classificador; 3) os subconjuntos são condicionalmente independentes para cada classe.

Diversos trabalhos da AS usam co-training em suas tarefas.Wan(2009), por exemplo, faz classificação binária de polaridades para reviews em chinês.Yu(2014) investigou o uso de co-trainingna AS em domínio de notícias, reviews e blogs.

2.3. Aprendizado Semissupervisionado 33

Figura 8 – Independência condicional na divisão de features do co-training

Fonte:Zhu(2005).

Ambas as abordagens iterativas são muito utilizadas na literatura, porém outras técnicas podem ser agregadas a fim de facilitar o processo de classificação e para garantir mais confiança no aprendizado. Uma delas é o Active Learning (COHN; ATLAS; LADNER,1994).

No Active Learning, a abordagem semissupervisionada iterativa obtém dois conjuntos de documentos em cada iteração, um com confiança para ser adicionado no treinamento e um com maior incerteza para ser anotado manualmente. O esforço manual necessário aqui é direcionado somente para os documentos onde o classificador obteve mais dificuldade na classificação; isso reduz o esforço humano na anotação e aumenta a eficiência do classificador nas próximas iterações (DASGUPTA; NG,2009).

Outra técnica que pode ser aplicada em ambos os casos é a inserção de um passo de avaliação para o classificador em cada iteração, avaliando se o modelo ganha ou perde eficiência após a adição de novos documentos. Esse passo pode facilitar na identificação de documentos que tenham sido classificados erroneamente antes que esse erro se propague no aprendizado.

Em nosso trabalho implementamos um modelo de aprendizado semissupervisionado usando self-training. Apresentamos mais características da nossa implementação, assim como dos classificadores e representações utilizadas, noCapítulo 4.

CAPÍTULO

3

No documento Expansão de recursos para análise de sentimentos usando aprendizado semi-supervisionado (páginas 56-61)