CATEGORIA: CONCLUÍDO ÁREA: ENGENHARIAS E ARQUITETURA SUBÁREA: ENGENHARIAS INSTITUIÇÃO: FACULDADE DE ENGENHARIA DE SOROCABA AUTOR(ES): TAN KIN TAT

(1)

TÍTULO: UM SISTEMA DE BIG DATA BASEADO EM APRENDIZAGEM DE MÁQUINA PARA

DETERMINAÇÃO DE PERFIS DE ALUNOS PARA APLICAR DE FORMA DIRECIONADA PLANOS DE ESTUDOS DEDICADOS

TÍTULO:

CATEGORIA: CONCLUÍDO CATEGORIA:

ÁREA: ENGENHARIAS E ARQUITETURA ÁREA:

SUBÁREA: ENGENHARIAS SUBÁREA:

INSTITUIÇÃO: FACULDADE DE ENGENHARIA DE SOROCABA INSTITUIÇÃO:

AUTOR(ES): TAN KIN TAT AUTOR(ES):

ORIENTADOR(ES): ANDRÉIA DAMASIO DE LELES ORIENTADOR(ES):

(2)

1. Resumo

Este trabalho tem como objetivo apresentar um sistema de Big Data para determinar perfis de alunos e direcionar o melhor plano de estudo, com a finalidade de diminuir às dificuldades e identificar talentos durante a vida acadêmica. Para a determinação dos perfis, algoritmos de aprendizagem de máquina baseado em redes neurais e técnicas de mineração de dados para agrupamento de dados foram utilizados. Visando a possível necessidade de processar grande volume e variedade de dados acadêmicos, oriundos de diferentes fontes, uma arquitetura de big data baseada na tecnologia Hadoop foi proposta, considerando a aprendizagem de máquina nos processos ETC – extração, transformação e carga dos dados como também para o processo de recomendação de conteúdos. Para análise dos resultados, considerou como escopo inicial, as informações sobre a disciplina de algoritmos, que pertence a grade curricular de vários cursos de uma faculdade, a qual foi utilizada como estudo de caso.

2. Introdução

A vida acadêmica de um estudante do ensino superior é cercada de várias atividades que envolvem múltiplas disciplinas, provas, projetos, relatórios e outras entregas, que fazem parte do critério de avaliação. Neste cenário, percebe-se claramente que há necessidade de organização e planejamento dos estudos para cumprir as entregas e, consequentemente, ter um eficiente processo de ensino-aprendizagem que resultam em aprovação e satisfação pessoal.

No entanto, os alunos chegam ao ensino superior com diferentes níveis de conhecimentos, que na hora dos estudos fica evidente o impacto deste fato na assimilação dos conteúdos e resultados dos processos avaliativos. O aluno pode apresentar dificuldades ou ter um bom acompanhamento do conteúdo programático de uma disciplina. O aluno ainda não tem o hábito de estudar como rotina diária e de aprendizado, o foco ainda é estudar no período ou véspera das avaliações. Este comportamento tem como causa o ensino de base, fundamental e médio, principalmente da rede pública de ensino que aborda a metodologia de aprovação continuada, fazendo com que o aluno apresente várias lacunas no processo de ensino-aprendizado. Neste sentido, o aluno chega ao ensino superior não sabendo fazer o básico para um bom desempenho acadêmico: não sabe estudar, sempre

(3)

precisando de apoio. Quando o aluno tem consciência que ele não sabe estudar e procura os recursos de apoio como tirar dúvidas com professores e frequentar a monitoria, o problema é minimizado, caso contrário, o aluno segue sem rotina de estudos, pensando que a melhor forma de aprender é assistir aulas e estudar apenas na véspera das provas. Como consequência, a probabilidade aumenta do aluno reprovar, ficar em dependência, desistir da faculdade, ter falta de identidade com o curso e demorar a se formar. Para faculdade, as consequências são refletidas por turmas de dependência lotadas e evasão que causam problemas administrativos. Neste contexto, é preciso criar meios de fazer o aluno aprender a estudar. Para aprender a estudar é necessário entender o objetivo e gerar um plano de estudo, baseando-se nas consultas de referências bibliográficas, realização de exercícios e execução de projetos individuais ou em equipe. Um plano de estudo eficiente é aquele que sana as dificuldades, tira as dúvidas e torna o aprendizado efetivo. Portanto, por mais que o professor crie um plano de ensino, este geralmente parte da premissa do aprendizado anterior requerido e considera um perfil de conhecimentos antes e depois de cursar a disciplina. Cabe o aluno entender a proposta do plano de ensino, identificar as suas dificuldades e traçar seu plano de estudo para ter bom desempenho. O que acontece geralmente é que o aluno tenta realizar as atividades acadêmicas solicitadas sem entender as suas dificuldades e o objetivo do estudo. Geralmente, na hora de estudar o aluno não entende o porquê da realização de um determinado exercício ou projeto, necessitando do apoio dos monitores ou dos professores. Como consequência, as salas de monitorias ficam lotadas, principalmente em datas que antecedem as provas ou entregas de projetos e relatórios.

Na atualidade, a educação conta com a Tecnologia da Informação e Comunicação (TIC) para apoiar o processo de ensino e aprendizado. A TIC é amplamente utilizada em Aprendizagem Eletrônica ou EAD - Ensino a Distância e aplicativos mobile com foco educacional, mas não acadêmico. As ferramentas de TIC englobam as ferramentas de groupware para facilitar a colaboração e o trabalho em grupos, como também a realização de exercícios, que computam os acertos e erros para definir o desempenho, denominados de ferramentas QUIZ, entre outras.

Uma faculdade gera uma enorme base de dados que não é explorada para auxiliar o processo de ensino e aprendizado e apoiar o aluno na sua vida

(4)

acadêmica, como dados de avaliações, post de dúvidas e outras fontes, como da fanpage institucional, de pesquisa em bibliotecas e AVA - Ambientes de Aprendizagem Virtual. Explorar estes dados pode trazer conhecimento, potencializar e sanar dificuldades dos alunos e melhorar o planejamento acadêmico.

3. Objetivos

O objetivo deste trabalho foi desenvolver um sistema de Big Data para definir perfis de conhecimento de alunos, facilitando o direcionamento de planos de estudo, sanando dificuldades e potencializando talentos. O plano de estudos será disponibilizado ao aluno por meio de um aplicativo divertido e gameficado que terá recompensas como prêmios aos desafios acadêmicos alcançados. Os prêmios serão mensagens de incentivos, dicas de inovação, convite para participar de maratonas e projetos acadêmicos, grupos de estudos ou participar do grupo de atendimento a dúvidas online. Para isso, técnicas de Inteligência Artificial, mais precisamente, aprendizagem de máquina foram empregadas para facilitar o processo de mineração e dados e criar os agrupamentos ou clusters.

4. Metodologia

Primeiramente, uma vasta pesquisa sobre o tema Big Data foi realizada com foco na proposta do Ecossistema Hadoop, mineração de textos de redes sociais, Data Mining e Inteligência Artificial.

A partir deste estudo preliminar, iniciou a pesquisa sobre o processo ETC – Extração, Transformação e Carga. Para isso, foi necessário entender as tecnologias que envolvem o Hadoop para realização do processo designado como Map Reduce, que basicamente visa processar em um ambiente distribuído e paralelo grande quantidade e variedade de dados (PICOLI; ALMEIDA; ALMEIDA, 2014).

A seguir foi necessário entender como funciona os bancos do tipo NoSQL, muito aplicados em sistemas de Big Data. Inicialmente se estudou o Redis, devido às várias fontes de informações, tutoriais disponíveis, pois o intuito inicial era conhecer como trabalhar com um NoSQL. Depois o foco foi entender o HBase por ser o NoSQL nativo da arquitetura Hadoop (DIANNA; GEROSA, 2010).

Com o conhecimento consolidado sobre Hadoop e Map Reduce, a próxima etapa foi realizar provas de conceitos com outros subprojetos, principalmente para facilitar o processo ETC. Neste sentido, o trabalho foi focado no Hive e Pig,

(5)

linguagens que se mostraram mais adequadas para se trabalhar no referente ao processo Map Reduce e Big Data.

A fase seguinte foi analisar os requisitos do projeto. Ao definir que seria imprescindível a criação de grupos de alunos e seus perfis, foi necessário adquirir conhecimento sobre Inteligência Artificial, mais precisamente Aprendizagem de Máquina, por algoritmos não supervisionados por meio de Redes Neurais e técnicas de Data Mining como Agrupamento, Classificação e Recomendação (SFERRA, CORRÊA, 2003).

Primeiramente, a proposta era aplicar a aprendizagem de máquina e analisar o melhor algoritmo para o projeto. Neste sentido, alguns testes foram realizados com frameworks open source como o AForge para tentar buscar eficientemente os clusters ou grupos. Utilizou-se o algoritmo de Kohonen, baseado em Redes Neurais Artificiais e para agrupamento o algoritmo de K-means. Os resultados se mostraram eficientes (MARQUES, 2008).

A próxima etapa foi entender o Mahout, framework amplamente utilizado em Sistemas de Big Data para Aprendizagem de Máquina e analisar a sua aderência aos requisitos do projeto (SANTOS, 2013).

A etapa final busca criar uma arquitetura de Big Data que possa tratar grande volume e variedade de dados acadêmicos, garimpando informações armazenadas e em tempo real.

Para a obtenção dos primeiros resultados, selecionou-se dados da disciplina de algoritmos para a realização dos primeiros testes, para a obtenção de resultados tanto em relação aos algoritmos de aprendizagem de máquina como também da plataforma de Big Data baseada em Hadoop. Após esta etapa, planos de estudos foram realizados para avaliação da eficiência da arquitetura de Big Data desenvolvida e aplicada. Para a realização dos planos de estudos, um aplicativo denominado “Go Study” foi idealizado para que possa ser acessado via dispositivos móveis e o estudante realizar seus estudos da forma que desejar. Este aplicativo foi desenvolvimento em ambiente Web e com a tecnologia PhoneGap para ser multiplataforma e ser aderente a qualquer dispositivo (SOUZA, 2014).

(6)

O desenvolvimento do projeto considerou 3 fases principais: (1) aplicativo “Go Study”; (2) Aprendizagem de Máquina; (3) Arquitetura para Big Data baseada em Hadoop. Na fase 1 foi desenvolvido um protótipo de simulação do aplicativo na intenção de demonstrar as funcionalidades e recomendações de planos de estudos que o aluno terá acesso, de acordo com seu perfil. Na fase 2, o foco foi entender o escopo da massa de dados e o formato dos dados de entrada para aplicar nos algoritmos de aprendizagem de máquina e redes neurais. Primeiramente, para este fim, se utilizou o framework AForge, por ser dotado de vários algoritmos para processamento envolvendo os conceitos de inteligência artificial. Ficou claro que trabalhar com algoritmos não-supervisionados teria que ser o foco, pois o interessante seria inserir um vetor de dados e os clusters serem encontrados via aprendizagem de máquina. Os dados de avaliação da disciplina serviram como massa de dados inicial para o projeto. Testes realizados mostraram a formação de oito clusters a partir do processo de mineração de dados envolvendo os algoritmos de Kohonen e K-means. Na fase 3, o ecossistema de Big Data começou a ser explorado, primeiro instalando e realizando testes com o Hadoop Core que envolve o processamento distribuído via Map Reduce e HDFS – Hadoop Distributed File System (PICOLI; ALMEIDA; ALMEIDA, 2014). A seguir explorou as ferramentas de programação para analisar qual delas poderia ser eficiente no processamento de grande volume de dados e a linguagem Pig se mostrou de fácil aprendizado e eficiente para o processo de Map Reduce. A seguir o subprojeto Hadoop e framework Mahout foram utilizados. A intenção era verificar se esta plataforma, aderente ao Hadoop, seria compatível com a proposta do projeto. Isto facilitaria muito o processo de Map Reduce. O Mahout executa diversos algoritmos tanto de recomendação como para a formação de clusters, amplamente utilizado pelo Twitter e Facebook para mineração de textos. O foco principal foi a utilização do algoritmo de K-Means, pois o framework não trabalha com o algoritmo de Kohonen. Sem o pré-processamento vindo de uma rede neural artificial, a solução foi considerar como entrada, um documento com os mesmos dados utilizados nos testes com o framework Aforge. Mas o resultado não foi satisfatório, pois os clusters não mostram informações relevantes para serem exploradas. Em contrapartida, a utilização do Mahout pra execução de filtros de buscas de palavras torna-se muito viável, além de ser utilizado amplamente em sistemas de recomendação. Portanto, o Mahout não

(7)

será utilizado na etapa de pré-processamento para a realização de Map Reduce, mas certamente para recomendação dos planos de estudos.

6. Resultados

Os resultados deste trabalho serão discutidos considerando as três fases de desenvolvimento descritas na seção 5 deste artigo. Na fase 1 foi desenvolvido o aplicativo “Go Study” que permite o aluno realizar seu plano de estudo de acordo com seu perfil. As figuras 1,2 e 3 ilustram as telas deste aplicativo. Conforme pode ser visto na figura 1, serão recomendados livros, dicas e vídeos para auxiliar o aprendizado. Com base no perfil, é possível saber se o aluno teve mais faltas em aulas teóricas ao invés das práticas, sendo assim recomendar diversos livros de didáticas diferentes pra que consiga encontrar o estudo mais eficiente. Caso contrário, irá recomendar mais vídeos práticos, para melhor compreender o assunto, pois pela análise das informações de um dos clusters gerado, a parte teórica da disciplina não era o foco da dificuldade. O controle das tarefas é de total importância para o aluno, pois será possível medir o seu rendimento e auto avaliação, conforme figura 2. O aluno terá acesso às suas estatísticas referentes aos exercícios resolvidos e livros emprestados por meio de gráficos e métricas relativas. Na figura 3, para motivar os alunos, incentivo por bônus de acordo com as realizações propostas. Exemplo: quando o aluno concluir todos os exercícios propostos do 1 até o nível 5 tem 0.5 ponto na avaliação bimestral. O objetivo será motivar os alunos estarem estudando e sempre resolvendo exercícios.

(8)

Figura 1 - Página Meu Plano - Go Study

Na fase 3, foi desenvolvido um aplicativo de processamento, que simularia o processo de Map Reduce de um sistema de Big Data, baseando-se em aprendizagem de máquina com redes neurais não-supervisionada e agrupamento, respectivamente, os algoritmos de Kohonen e K-means. Este aplicativo simulador contempla 3 passos: inicio do treinamento, análise da rede neural e clustering ou agrupamento. Os resultados obtidos resultaram na formação dos oito clusters, ilustrados na figura 4.

(9)

Figura 2 - Meus Estudos - Go Study

(10)

Figura 4: Resultado do Processamento de Aprendizagem de Máquina

De forma geral, as informações geradas nos clusters mostram várias informações pertinentes para a elaboração de planos de estudos. Um exemplo foi no cluster 1: mostrou que alunos que faltaram muito nas aulas práticas de algoritmos, tiveram nota abaixo da média. Isto balizou para inserir no plano de estudo destes alunos exercícios práticos, por meio de vídeo-aula.

7. Considerações Finais

O projeto de pesquisa focou em diferentes temas relacionados à computação como mineração de dados, Big Data, aprendizagem de máquina e desenvolvimento para dispositivos móveis aplicados em um objeto de estudo que foram os dados acadêmicos. Pode-se concluir que o trabalho mostrou quais algoritmos de aprendizagem de máquina e subprojetos do ecossistema Hadoop são mais adequados para se aplicar na determinação de clusters e consequentemente, definição de perfis. Para trabalhos futuros, recomenda-se trabalhar com um volume maior de dados e dados em tempo real para se concluir a eficiência dos algoritmos de aprendizagem de máquina neste contexto de massa de dados. Outro ponto relevante será testar os planos de estudos elaborados via aplicativo “Go Study”, junto ao público alvo, que são os alunos encontrados em cada cluster, para refinamentos e atingir o objetivo central do projeto que é sanar as dificuldades e identificar potencialidades, visando uma vida acadêmica efetiva e feliz. A contribuição do aplicativo simulador de Aprendizagem de Máquina foi bastante importante, basta agora com o conhecimento adquirido na linguagem Pig, implementar a lógica de aprendizagem de máquina no pré-processamento ou etapa

(11)

Map Reduce de uma arquitetura de Big Data. O estudo já realizado com NoSQL foi fundamental para entender como armazenar e explorar os dados em uma arquitetura distribuída, sendo possível agora implementar junto ao Hadoop que é a plataforma mais utilizada em sistemas de Big Data na atualidade. O estudo com Mahout foi fundamental para definir que a sua principal contribuição na arquitetura de Big Data proposta será na recomendação de conteúdos para a elaboração de planos de estudos eficientes.

8. Fontes Consultadas

CANARY, Vivan Passos. A TOMADA DE DECISÃO NO CONTEXTO DE BIG DATA:Estudo de caso único.

http://www.lume.ufrgs.br/bitstream/handle/10183/87757/000911900.pdf?sequen, Porto Alegre. 2013

ANDRADE, Tiago Pedroso da Cruz de. MapReduce - Conceitos e

Aplicações.http://www.ic.unicamp.br/~cortes/mo601/trabalho_mo601/tiago_cruz_ma p_reduce/relatorio.pdf

SANTOS, Fernando. Mineração de opinião em textos opinativos utilizando algoritmos de classificação.

http://bdm.unb.br/bitstream/10483/7711/1/2013_FernandoLeandrodosSantos.pdf, Brasilia, 2013

PICOLI, Ivan Luiz. ALMEIDA, Leandro Batista de. ALMEIDA, Eduardo Cunha de. Otimização de Desempenho em Processamento de Consultas MapReduce. 2014. http://www.inf.ufpr.br/sbbd-sbsc2014/sbbd/proceedings/artigos/pdfs/128.pdf, 1ª ed.

DIANNA, Mauricio de. GEROSA, Marco Aurélio. NOSQL na Web 2.0: Um Estudo Comparativo de Bancos Não-Relacionais para Armazenamento de Dados na Web 2.0.

http://www.lbd.dcc.ufmg.br/colecoes/wtdbd/2010/sbbd_wtd_12.pdf, 2010

SOUZA, Leonardo Moreira de. LEMES, Túlio Henrique Seixas. Um estudo sobre o PhoneGap e seu desempenho ante a linguagem nativa do Android. http://bsi.uniriotec.br/tcc/201412SouzaLemes.pdf, 2014.

SFERRA, Heloisa Helena. CORRÊA, Ângela M.C. Jorge. Conceitos e Aplicações de Data Mining.

http://www.unimep.br/phpg/editora/revistaspdf/rct22art02.pdf, v.11, nº22 – pp. 19-34, 2003.

(12)

MARQUES, Márcio Candeias. Comparação entre os métodos de

agrupamentos K-means e Mapa de Kohonen (SOM) em análise de pesquisa de mercado. http://rica.ele.puc-rio.br/media/ICA01_Marques.pdf, 2008.