Apache Mahout - Recomendação de objetos de aprendizagem de línguas baseada em inteligência de e

Apache Mahout é uma biblioteca java de aprendizagem de m áquina, de c ódigo aberto, iniciada em 2008 como um subprojeto da Apache Lucene, outra ferramenta de c ódigo aberto gerenciada pela Apache Software Foundation, amplamente utilizada em problemas de busca e recuperaç ão da informaç ão (OWEN et al., 2011), (GIACO- MELLI, 2013). Trata-se de uma ferramenta altamente escal ável que tem como prin- cipal objetivo atuar como uma m áquina de recomendaç ão (de filtragem colaborativa), clusterizaç ão e classificaç ão.

2.5.1 T écnicas de Recomendaç ão

O m ódulo de recomendaç ão do Mahout divide-se em quatro variaç ões principais (OWEN et al., 2011):

• Baseada em usu ´ario: Consiste na descoberta da semelhanc¸a entre os dife-

rentes usu ários do sistema. O objetivo é recomendar itens bem avaliados por pessoas semelhantes ao usu ário alvo.

• Baseada em conte údo: Objetiva filtrar os itens que receberam melhor avaliaç ão

por parte do usu ´ario para posteriormente identificar itens similares a serem re- comendados.

• Slope-One: Uma t écnica de recomendaç ão baseada em item bastante r ápida e

simples. Estima prefer ências para novos itens com base na diferença m édia do valor de prefer ência entre um novo item e outros itens bem avaliados pelo usu ário. Pode ser aplicada quando os usu ários atribuem determinadas classificaç ões aos itens (e n ão apenas prefer ências de vari áveis booleanas). • Baseado em modelo: Tem por objetivo construir um modelo de prefer ências

do usu ário com base em prefer ências existentes e, em seguida, inferir novas prefer ências.

Ambos os modelos contam com uma m étrica de similaridade, ou noç ão de semelhança entre usu ários ou itens. Apache Mahout fornece v árias implementaç ões de algoritmos para o c álculo de similaridade, entre as quais pode-se destacar a Correlaç ão de Pearson, Dist ância Euclidiana, Coeficiente de Tanimoto e Correlaç ão de Spearman. Um detalhamento maior acerca da l ógica de cada uma das classes pode ser encontrado em (TIWARY, 2015).

2.5.2 Clusterizac¸ ˜ao

Clusterizaç ão refere-se à organizaç ão de itens de uma determinada coleç ão em grupos de itens semelhantes. Estes grupos podem ser caracterizados como um con- junto de itens semelhantes um ao outro em alguns aspectos, por ém, diferentes de elementos pertencentes a outros grupos (OWEN et al., 2011).

Apache Mahout suporta diversas implementaç ões de algoritmos para armazena- mento em cluster, como K-Means, Fuzzy K-Means, Canopy e Spectral Clustering, cada um com caracter´ısticas pr óprias e crit érios espec´ıficos, conforme descrito a seguir.

• k-Means: Um algoritmo simples, mas bem conhecido para agrupamento de obje-

de caracter´ısticas num éricas. Al ém disso, o utilizador deve especificar o n úmero de clusters (referidos como K) que pretende identificar. Os itens s ão armazena- dos nos k clusters tomando-se por base a dist ância entre os itens e o centroide, ou centro, da iteraç ão anterior.

• Fuzzy K-Means: Uma extens ˜ao do algoritmo k-Means. Permite descobrir pontos

que podem pertencer a mais de um cluster.

• Canopy: Um algoritmo de pr é-clusterizaç ão n ão-supervisionado, utilizado para

criar pontos de partida para outros algoritmos, como k-means e Fuzzy K-Means. • Spectral Clustering: O algoritmo faz uso do espectro (ou valores pr ´oprios)

da matriz de semelhança para analisar a conex ão entre os dados, ao passo que outros algoritmos de agrupamento, como k-Means, usam a densidade para atribuiç ão de clusters.

2.5.3 Classificac¸ ˜ao

A classificaç ão pode ser caracterizada como um processo de utilizaç ão de informaç ões espec´ıficas (entrada) para escolha de uma única seleç ão (sa´ıda), a partir de uma lista de potenciais respostas pr é-determinadas (OWEN et al., 2011). Os algoritmos implementados pelo Mahout para classificaç ão/categorizaç ão s ão descritos a seguir.

• Naive Bayes - atualmente s ˜ao implementadas duas abordagens relacionadas

à classificaç ão de conte údo com base em estat´ısticas bayesianas. A primeira é um classificador padr ão Naive Bayes e a segunda é uma extens ão desse padr ão, denominada de CBayes (Navi Bayes Complementar).

• Modelo oculto de Markov - abordado em v ´arias ´areas de aprendizagem de

m áquina para o reconhecimento de padr ões, como processamento de linguagem natural, reconhecimento de voz, reconhecimento de escrita à m ão, entre outros. • Regress ão log´ıstica - um modelo utilizado para a previs ão da probabilidade

de ocorr ência de um evento. S ão utilizadas m últiplas vari áveis de previs ão que podem ser tanto num éricas ou categorias.

2.5.4 Recomendac¸ ˜oes com Mahout

Atualmente a construç ão de um motor de recomendaç ão r ápido e flex´ıvel pode ser realizado atrav és da biblioteca Taste. Essa biblioteca suporta recomendaç ões baseadas em usu ário ou em conte údo e consiste de cinco componentes principais:

• DataModel: cont ém as informaç ões a serem analisadas pelo Mahout. Essas

informaç ões devem estar em um formato espec´ıfico: UserId, ItemId, Avaliaç ão. Neste trabalho o DataModel foi populado com dados obtidos diretamente da base de dados atrav és da utilizaç ão da classe JDBCDataModel.

• UserSimilarity: interface que possui v árias implementaç ões de algoritmos para

o c ´alculo de similaridade entre usu ´arios.

• ItemSimilarity: interface utilizada para o c ´alculo de similaridade entre itens.

• UserNeighborhood: utilizada para determinaç ão da vizinhança, ou seja, o n úmero de usu ários similares que ser ão utilizados no processo de recomendaç ão.

• Recommender: interface que deve ser instanciada para obtenç ão das recomendaç ões.

Esses componentes possibilitam a construç ão de sistemas de recomendaç ão com- plexos capazes de realizar recomendaç ões em tempo real ou offline. Mahout possui ainda implementaç ões espec´ıficas para avaliaç ão da efici ência do algoritmo escolhido para o processo de recomendaç ão.

Maiores informaç ões acerca de cada um dos algoritmos implementados podem ser encontradas na p ágina do projeto em https://mahout.apache.org/. Nessa p ágina s ão disponibilizados tamb ém tutoriais, e-books e exemplos de implementaç ão e aplicaç ão dos algoritmos de recomendaç ão.

A recomendaç ão de Objetos de Aprendizagem voltados para o ensino e aprendizagem de l´ınguas é algo novo. No melhor de nosso conhecimento, n ão se pode encontrar na literatura trabalhos espec´ıficos de recomendaç ão deste tipo de objeto. Atrav és do estudo bibliogr áfico em trabalhos voltados para a área de Sistemas de Recomendaç ão e Objetos de Aprendizagem, percebe-se que a literatura fornece uma s érie de trabalhos relacionados. Estes trabalhos permitem analisar a viabilidade de aplicaç ão da soluç ão proposta, atrav és do desenvolvimento de novas soluç ões ou agregando melhorias às abordagens existentes. Dessa forma, foram analisados dois grupos de trabalhos: Recomendaç ão de Objetos de Aprendizagem e Recomendaç ão de Objetos associados à diferentes contextos, descritos a seguir.

No documento Recomendação de objetos de aprendizagem de línguas baseada em inteligência de enxames (páginas 40-44)