TESTES REALIZADOS NO MODELO COM OS ALGORITMOS DE

CAPÍTULO 5 – MODELO DE ANÁLISE DE

5.11. TESTES REALIZADOS NO MODELO COM OS ALGORITMOS DE

NO TAGHELPER

Aplicações típicas de categorização de textos incluem designar tópicos para novos artigos (Lewis, Yang, Rose, & Li, 2004), páginas Web (Craven, DiPasquo, Freitag, McCallum, Mitchell, & Nigam, 1998), ou artigos de pesquisa (Yeh & Hirschman, 2002). Algoritmos de aprendizagem de máquina podem aprender a mapear entre um conjunto de características e um conjunto de categorias de saída. Os algoritmos fazem isso examinando um conjunto de codificações feitas por humanos “exemplos treinados” que exemplificam cada categoria final. O objetivo dos algoritmos é aprender regras pela generalização desses exemplos de tal forma que as regras possam ser aplicadas efetivamente a novos exemplos. Os trabalhos nessa área têm alcançado resultados impressionanates em uma gama de aplicações e permitem trabalhar para automatizar a aplicação de categorias em esquemas de códigos.

O discurso de aprendizes colaborativos pode ser codificado em múltiplas dimensões com múltiplas classes em cada dimensão. A abordagem baseada em

características consiste na idéia de identificar características do texto que são bem generalizadas pelas categorias, de tal forma que as regras que definem o que constitui cada código e que o distingue de outros possa ser o mais simples possível. Por outro lado, a abordagem algorítmica é desenvolver mais e mais algoritmos poderosos com a capacidade de aprender pequenas distinções. As duas abordagens são usadas neste trabalho pelo uso do TagHelper.

Classificar sentenças em atos de diálogo ou atos da fala é uma forma comum de caracterizar as funções das sentenças desde a década de 60, e muitas abordagens automáticas para esse tipo de análise foram desenvolvidas desde então, por exemplo, (Serafin & Di Eugenio, 2004) (Stolcke, Ries, Coccaro, Shriberg, Bates, & Jurafsku, 2000). Nessas aplicações, a unidade de análise é tipicamente uma simples sentença ao invés do documento como um todo, tendo um impacto na solução que tenha melhor sucesso. Por causa disso, mais ênfase é dada na seleção de características altamente preditivas, como relações gramaticais indicativas ou a inclusão de palavras únicas, do que no algoritmo empregado. Por exemplo, Wiebe et al. (Wiebe, Wilson, Bruce, Bell, & Martin, 2004) descreveram uma série de explorações em profundidade de uma grande variedade de tipos de caraterísticas lingüísticas. Essas investigações envolveram características derivadas de relações gramaticais, características léxicas simples, e padrões de extração superficiais. A idéia é procurar por características que podem ser confiavelmente extraídas do texto e que possam prover dicas de alta precisão para distinguir tanto sentenças objetivas quanto subjetivas.

A ferramenta TagHelper explora uma variedade desses tipos de características, como: pontuação, unigrama e bigrama, POS bigramas, tamanho da linha, non-stop words, stemming e palavras raras.

Muitos dos algoritmos de aprendizagem contemporâneos são binários por natureza (Fuernkranz, 2002), distinguindo entre exemplos positivos e negativos. Apesar de que muitos dos problemas reais são tarefas de classificação multiclasse, isto é, distinguindo entre muitos tipos de contribuições conversacionais. Geralmente, os trabalhos em classificação multiclasse são construídos e extendidos na classificação binária de formas diferentes. Na classificação multiclasse, o problema multiclasse é

quebrado em problemas de classificação binária múltipla, e as soluções são combinadas posteriormente de forma que um único rótulo de classe é designado para uma sentença texto.

No caso do TagHelper, três tipos de algoritmos de aprendizagem podem ser utilizados: Naïve Bayes, support vector machines e decision trees.

A árvore de decisão é uma estrutura simples em que nós não-terminais representam testes em um ou mais atributos e nós terminais refletem as decisões de saída.

O Naïve Bayes é um gerador de regras baseado nas regras da probabilidade condicional de Bayes. O algoritmo utiliza todos os atributos para a decisão como se todos eles tivessem a mesma importância e independência.

Esses algoritmos precisam de um bom conjunto de características que sejam fortemente preditivas e ao mesmo tempo gerais o bastante para que essas características possam ser usadas de forma efetiva na construção de regras de classificação.

De acordo com (Rose, et al., 2008), o support vector machine é o estado da arte dos algoritmos para classificação de textos. O J48 (decision tree) executa melhor com pequenos conjuntos de características. O naïve bayes trabalha bem com modelos em que as decisões são feitas baseadas nas evidências acumulativas.

A confiabilidade das categorias do esquema de código é tipicamente avaliada usando estatística Kappa (Cohen J. A., 1960), que mede o montante de concordância que há entre duas codificações sobre os mesmos dados. O coeficiente de correlação11_é utilizado, a estatística kappa é usada como um meio de classificar a concordância dos dados categorizados. Os níveis de padrões aceitáveis de concordância diferem entre os subcomitês de pesquisadores do comportamento. O valor Kappa de 0.4O é um nível aceitável de concordância de acordo com (Fleiss & Cohen, 1973). Porém, isto é substancialmente menor do que os padrões mais típicos de 0.8 ou pelo menos 0.7, o

que é advogado por (Krippendorf, 1980). A estatística Kappa de Cohen é usada na maioria dos estudos em CSCL.

O pacote de ferramentas TagHelper provê um framework conveniente para quantificar a concordância com os padrões de codificação do corpus feita por humanos usando estatística Kappa (Cohen J. A., 1960), sendo esta estatística considerada um padrão aceitável para medir a confiabilidade da codificação.

O protocolo de diálogo foi testado com o propósito de encontrar intenções relacionadas com a dimensão intenção do modelo do Ato de Cooperação do Estudante. Os dois primeiros atos da fala da dimensão intenção foram requerer e informar. Esses dois atos foram facilmente identificados no protocolo de diálogo. O ato informar composto pelas sentenças afirmativas, negativas, interjeições e declarações. O ato requerer composto pelas sentenças interrogativas e imperativas. Foram aplicados os três algoritmos de classificação comentados acima e disponíveis no TagHelper. O J48 (decision tree) teve o menor índice Kappa, 0.63, da amostra sendo avaliada. E o SMO (support vector machine) o melhor índice Kappa, 0.78. Observou-se que o Naïve Bayes (kappa 0.66) teve um tempo de resposta bem superior aos demais, sendo que nos testes o SMO gastou aproximadamente cinco vezes mais tempo do que o Naïve Bayes para classificar as instâncias e o J48 duas vezes mais. A diferença do Kappa entre o Naïve Bayes e o J48 foi de, aproximadamente, 5% para mais, e entre o Naïve Bayes e o SMO de, aproximadamente, 20% para menos.

Para as opções testadas no espaço de características, as opções que tiveram melhor desempenho para o kappa foram com a escolha da não remoção de stop-words e com a presença de características raras.

No documento Modelo de análise de conflitos em diálogos em aprendizagem colaborativa. (páginas 138-141)