DDAAV DETECTOR DO DESEMPENHO DO ALUNO EM AVAs

Texto

(1)UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. DDAAV – DETECTOR DO DESEMPENHO DO ALUNO EM AVAs. DISSERTAÇÃO DE MESTRADO. Andreia Rosangela Kessler Mühlbeier. Santa Maria, RS, Brasil 2014.

(2) 1. DDAAV – DETECTOR DO DESEMPENHO DO ALUNO EM AVAs. por. Andreia Rosangela Kessler Mühlbeier. Dissertação apresentada ao Curso de Mestrado do Programa de PósGraduação em Ciência da Computação, Área de Concentração em Computação, da Universidade Federal de Santa Maria (UFSM, RS), como requisito parcial para obtenção do grau de Mestre em Ciência da Computação.. Orientador: Profª. Drª. Roseclea Duarte Medina. Santa Maria, RS, Brasil 2014.

(3) 2.

(4) 3. Universidade Federal de Santa Maria Centro de Tecnologia Programa de Pós-Graduação em Ciência da Computação. A Comissão Examinadora, abaixo assinada, aprova a Dissertação de Mestrado. DDAAV – DETECTOR DO DESEMPENHO DO ALUNO EM AVAs. elaborado por Andreia Rosangela Kessler Mühlbeier como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. COMISSÃO EXAMINADORA: Roseclea Duarte Medina, Drª. (UFSM) (Presidente/Orientador). Giliane Bernadi, Drª. (UFSM). Gilse Antoninha Morgental Falkembach, Drª. (ULBRA). Santa Maria, 15 de Abril de 2014..

(5) 4. AGRADECIMENTOS. “Aprender é muito bom, mas não é tarefa fácil!” O percurso para sua busca se torna menos árduo e mais prazeroso quando se tem a oportunidade de conviver e conhecer pessoas dispostas a compartilhar o processo de aprendizagem, seja ele profissional ou de vida. Agradeço, portanto, a todos que contribuíram nesta etapa, em especial:. Aos meus pais, Edibaldo e Levina Kessler Mühlbeier, pela educação, confiança e amor que sempre depositaram em mim, pelo exemplo de honestidade, humildade e pelo apoio que sempre prestaram. “E quando Vc vem de novo?” frase clássica aos 5min que eu chegava em casa. Saudade..... A minha irmã Ana Deges Kessler Mühlbeier, pelo apoio, paciência e pelas palavras de incentivo em momentos difíceis, independente da hora. “Até os pingos de chuva brilham!!!”. A Chica e a Cacau pela grande recepção e toda alegria que fazem ao me ver chegar, lambidas, mordidas e bagunça.. À minha orientadora Profª. Drª. Roseclea Duarte Medina pelo auxílio, dedicação, amizade e pelos imprescindíveis caminhos apontados. Pelas viagens, pelas comemorações independentes do motivo e pelos mates na segunda-feira cedo pela manhã no labin.. À minha amiga, orientadora de graduação Profª. M. Sc. Patrícia Mariotto Mozzaquatro, pela motivação ao ingresso no mestrado e pelos preciosos auxílios em momentos que precisei.. À UFSM, aos professores do PPGI pelo ensino de qualidade, pela estrutura disponibilizada, mas em especial ao Josmar Nuernberg que sempre auxiliou em tudo que precisei junto à secretaria do curso..

(6) 5. Ao Prof. Dr. Eduardo Kessler Piveta pela amizade e sua peculiar atenção para com todos os assuntos da coordenação do curso. Aos colegas do mestrado, em especial Felipe Becker Nunes, Camila Cerezer Possobom pelas experiências e ajudas compartilhadas, bem como pela amizade iniciada, à Vcs muito sucesso. A um colega distante, uma amizade iniciada por consequência de um evento, mas que até hoje permanece forte, “pertinho” e também além mar correto, Jaziel Souza Lobo? E também aos demais colegas do GRECA felicidades!. Em especial ao meu colega Aderson de Carvalho pelo inestimável apoio no desenvolvimento deste trabalho, sempre prestativo, atencioso e incansável, menino vc vai longe, muito sucesso!. Às professoras Drª. Oni Sichonani, Drª. Giliane Bernardi, Drª. Iria Roggia e Drª. Leila Maria Araújo Santos que sempre foram afetuosas comigo, durante o convívio no laboratório. Ao Nei do GAP, por sempre intermediar e autorizar alguma solicitação pedida a ele.. A todos os amigos (as), que sempre me incentivaram durante esta trajetória, incentivando e acreditando que tudo é possível, quando se acredita e busca fazer a sua parte.. Ao CNPq, pelo suporte financeiro que permitiu a minha estada no Mestrado.. Muito Obrigada!!!!.

(7) 6. De u s Obrigada por exatamente tudo!.

(8) 7. RESUMO Dissertação de Mestrado Programa de Pós-Graduação em Ciência da Computação Universidade Federal de Santa Maria DDAAV – DETECTOR DO DESEMPENHO DO ALUNO EM AVAs AUTOR: ANDREIA ROSANGELA KESSLER MÜHLBEIER ORIENTADOR: ROSECLEA DUARTE MEDINA Data e Local da Defesa: Santa Maria, 15 de Abril de 2014. Os Ambientes Virtuais de Aprendizagem (AVAs) são beneficiados com os avanços do uso de tecnologias na Educação, possibilitando uma aprendizagem mais dinâmica e significativa. Diante do aumento de interação nestes ambientes, aumenta consideravelmente o volume de dados armazenados. O processo de Descoberta de Conhecimento em Base de Dados (Knowledge Discovery in Databases - KDD) vem sendo utilizado com sucesso em diversas áreas e na área acadêmica alguns resultados têm sido utilizados para auxiliar os professores. A presente dissertação descreve uma pesquisa realizada com as etapas de KDD, que utiliza a ferramenta WEKA (software de mineração de dados livre), em específico o algoritmo J48, para aplicar técnicas de mineração de dados nas informações armazenadas no banco de dados, a fim de detectar o desempenho dos alunos durante a execução do curso. O cenário de investigação foi construído com os dados oriundos das avaliações da disciplina de Introdução à Integração de Mídias na Educação, do Curso de Especialização em Mídias na Educação, composto de 134 (cento e trinta e quatro) alunos, distribuídos em 5 (cinco) polos distintos. Dessa forma, com os resultados obtidos na pesquisa, observou–se que a aplicação de regras do algoritmo, pode ser um valioso instrumento ao professor durante a execução do curso, e não apenas a posteriori, pois possibilita uma intervenção positiva imediata do mesmo, nas diversas variáveis que impactam no sucesso do aprendiz, como tipo de material, discussões, atividades, metodologias e estratégia.. Palavras-chave: Descoberta de Conhecimento em Base de Dados. Desempenho do aluno. WEKA..

(9) 8. ABSTRACT Master’s Dissertation Post-Graduation Program in Computer Science Federal University of Santa Maria DDAAV – DETECTOR PERFORMANCE OF STUDENTS IN VLES AUTHOR: ANDREIA ROSANGELA KESSLER MÜHLBEIER ADVISOR: ROSECLEA DUARTE MEDINA Defence Place and Date: Santa Maria, April 15, 2014.. The virtual learning environments (VLEs) are benefited with advances in the use of technologies in education, enabling a more dynamic and meaningful learning. In the face of increased interaction in these environments, greatly increases the amount of data stored. The process of knowledge discovery in database (KDDKnowledge Discovery in Databases) has been used successfully in several areas and in the academic area some results have been used to assist the teachers. This dissertation describes a survey conducted with the steps of KDD, which utilizes the WEKA tool (free data mining software), specifically the J48 algorithm, to apply data mining techniques on the information stored in the database, in order to detect the student performance while running the course. The research scenario was constructed with data from assessments of introduction to media in education, Integration of the specialization course in Media in education, composed of 134 (one hundred and thirty-four) students, distributed in 5 (five) different poles. In this way, with the results obtained in the research, noted that the application of rules of the algorithm, can be a valuable instrument to professor during the execution of the course, and not only a posteriori, because it allows a positive immediate intervention of even in several variables that impact on the success of the apprentice, as type of material, discussions, activities, methodologies and strategies. Keywords: Knowledge Discovery in Database. Student performance. WEKA..

(10) 9. LISTA DE ILUSTRAÇÕES Figura 1. Etapas do processo de KDD.............................................................. 24. Figura 2. Interface gráfica inicial do WEKA e a Interface gráfica Explorer........ 34. Figura 3. Exemplo de arquivo no formato ARFF, utilizado como entrada na ferramenta WEKA............................................................................. 35. Figura 4. Tela do ambiente do curso................................................................. 44. Figura 5. Modelo de Integração.......................................................................... 45. Figura 6. Diagrama de Caso de Uso.................................................................. 46. Figura 7. Diagrama de Atividades...................................................................... 47. Figura 8. Recorte da base de dados do arquivo ARFF...................................... 50. Figura 9. Resultado do algortimo J48 do WEKA............................................... 52. Figura 10. Árvore de decisão gerada pelo algoritmo J48 do WEKA, para as nove atividades realizadas................................................................. Figura 11. Árvore de decisão gerada pelo algoritmo J48 do WEKA, com a regra para as atividades quatro e cinco............................................. 54. 56. Figura 12. Tela de busca no banco de dados em SQL....................................... 57. Figura 13. Regras traduzidas na linguagem PHP................................................ 58. Figura 14. Integração do bloco no ambiente MOODLE....................................... 60. Figura 15. Tela do Relatório de Desempenho do Aluno...................................... 61. Figura 16. Relatório Final de desempenho da turma........................................... 62. Quadro 1. Representação textual para analise da atividade quatro e cinco...... 55.

(11) 10. LISTA DE TABELAS Tabela 1. Ferramentas de mineração de dados e suas características............. 32. Tabela 2. Valores das notas correspondentes as atividades no MOODLE....... 43. Tabela 3. Atributos selecionados para análise na ferramenta WEKA............... 48.

(12) 11. LISTA DE GRÁFICOS Gráfico 1. Total de alunos da disciplina com baixo desempenho....................... 64. Gráfico 2. Alunos com baixo desempenho por Polo............................................ 65. Gráfico 3. Atividade realizada no ambiente com baixo desempenho por Polo.... 66. Gráfico 4. Diferencial entre Atividade no ambiente e Atividade presencial....... 67.

(13) 12. LISTA DE ABREVIATURAS E SIGLAS. API. Application Programming Interface. ARFF. Attribute-Relation File Format. AVAs. Ambientes Virtuais de Aprendizagem. DDAAV. Detector do Desempenho do Aluno em AVAs. DM. Data Mining. CMC. Combination Of Multiple Classifiers. EaD. Educação a Distância. GPL. General Public License. JDBC. Java Database Connectivity. KDD. Knowledge Discovery in Database. MD. Mineração de Dados. MOODLE. Modular Object-Oriented Dynamic Learning Environment. PHP. Hypertext Preprocessor. SGBD. Sistemas Gerenciadores de Banco de Dados. SI. Sistemas de Informação. SQL. Structured Query Language. UFSM. Universidade Federal de Santa Maria. UML. Unified Modeling Language. URL. Uniform Resource Locator. WEKA. Waikato Environment for Knowledge Analysis.

(14) 13. SUMÁRIO 1 INTRODUÇÃO................................................................................................... 15 1.1 Problema de Pesquisa................................................................................... 16 1.2 Hipótese......................................................................................................... 17 1.3 Objetivo Geral................................................................................................ 17 1.4 Objetivos Específicos.................................................................................... 17 1.5 Estrutura da Dissertação.............................................................................. 18 2 REVISÃO BIBLIOGRÁFICA.............................................................................. 19 2.1 Ambientes Virtuais de Aprendizagem......................................................... 19 2.1.1 Acompanhamento do Aprendizado em AVAs.............................................. 20 2.2 O Processo de Descoberta do Conhecimento em Base de Dados – KDD...................................................................................................................... 23. 2.2.1 Pré-processamento...................................................................................... 24 2.2.2 Pós-Processamento..................................................................................... 25 2.2.3 Mineração de Dados..................................................................................... 26 2.2.3.1 Tarefas de Mineração de Dados................................................................ 27 2.2.3.2 Técnicas de Mineração de Dados............................................................. 29 2.3 Ferramentas de Mineração de Dados.......................................................... 31 2.3.1 Ferramenta WEKA....................................................................................... 33 2.4 Trabalhos Correlatos.................................................................................... 36 3 METODOLOGIA DA PESQUISA...................................................................... 39 4 DDAAV – DETECTOR DO DESEMPENHO DO ALUNO EM AVAs................... 42 4.1 Cenário de Investigação............................................................................... 42 4.2 Modelo de Integração.................................................................................... 45 4.3 Processo de Modelagem.............................................................................. 46 4.4 Seleção, limpeza e transformação dos dados........................................... 48 4.5 Integração do DDAAV no MOODLE............................................................... 49 4.5.1 Criação da base de conhecimento e formação das regras na ferramenta WEKA................................................................................................................... 49. 4.5.2 Execução da tarefa de classificação com o algoritmo J48.......................... 50 4.5.3 Geração da árvore de decisão..................................................................... 53 4.5.4 Tradução das regras na linguagem PHP..................................................... 55 4.5.5 Interface de integração da aplicação no ambiente MOODLE...................... 60.

(15) 14. 5 RESULTADOS................................................................................................... 62 6 CONCLUSÃO.................................................................................................... 68 6.1 Sugestões para Trabalhos Futuros............................................................. 69 REFERÊNCIAS.................................................................................................... 70 APÊNDICE............................................................................................................ 75 ANEXOS............................................................................................................... 77.

(16) 15. 1 INTRODUÇÃO Os avanços e a disseminação do uso das tecnologias descortinam novas perspectivas nas modalidades de ensino presencial, semipresencial e a distância. Com suporte de ferramentas e acesso por meio de dispositivos móveis, os ambientes virtuais de aprendizagem ganham destaque com grande expansão no processo educacional. Desse modo, os ambientes virtuais de aprendizagem provocam uma transformação na educação, permitindo uma maior interação no ambiente entre alunos, professores, tutores, conteúdos e interfaces, esse fato retoma as interações como uma parte eficaz dos processos de aprendizagem (DONNELLY, 2010, p. 1358). A situação torna-se relevante, tendo em vista que os alunos alcançaram um nível de interação elevado e bastante positivo no ambiente. Esse é um fator considerado importante para o acompanhamento da assiduidade e produção, o qual possibilita com que dados armazenados possam auxiliar na verificação de sua trajetória no ambiente. Estes dados pedagógicos dos alunos, professores e materiais são informações como data e hora de acessos, resultados de tarefas postadas, verificação de prazos de entrega e mensagens trocadas entre os participantes. Estas informações armazenam no sistema grandes volumes de dados e constituem fontes riquíssimas de conhecimento que acaba sendo deixado de lado, algumas vezes pela falta de conhecimento em saber como interpretá-los (ROMERO, 2012, p.127). Segundo Gottardo (2012, p. 14) “a dificuldade em obter informações relevantes do aluno e do seu processo de aprendizagem, pode ser considerada um fator hipotético pelo professor”, que reflete em: como acompanhar constantemente um aluno no ambiente virtual? como detectar quando os alunos estão interagindo? é viável identificar o quanto o aluno está apreendendo? Diante desse contexto, o processo de avaliação do desempenho do aluno nos ambientes virtuais de aprendizagem é realizado no fim de módulos ou disciplinas, pontuando o desempenho cognitivo de uma forma quase sempre estática ou definitiva, praticamente sem tempo hábil para ações retroativas de recuperação deste aluno. Sendo assim, fica clara a necessidade de realizar essas ações de avaliação e acompanhamento durante o andamento do curso, para propor.

(17) 16. alternativas para seu melhor aproveitamento, de modo a gerar subsídios para a identificação precoce a tempo de finalizar com êxito o seu processo de aprendizagem. A Mineração de Dados (Data Mining - MD) é um processo de extração de informações previamente desconhecida e potencialmente úteis, buscando identificar regras e padrões, por meio de técnicas eficientes para a descoberta de conhecimento em base de dados (Knowledge Discovery in Database - KDD) onde são conhecidos dados históricos consolidados, oriundos de fontes armazenadas sobre a vida escolar do aluno no ambiente (ROMERO, 2010, p. 605). Tal processo de descoberta do conhecimento pode auxiliar professores a conduzirem melhor suas turmas, identificando dificuldades, compreendendo melhor o processo de aprendizagem dos alunos e melhorando os métodos de ensino. Como consequência, os professores podem oferecer um feedback mais adequado aos alunos por meio de reflexões pertinentes as suas aprendizagens (ROMERO, 2010, p. 609). Sendo assim, essa dissertação tem como objetivo pesquisar e analisar o desempenho do aluno no ambiente virtual de aprendizagem, utilizando técnicas de mineração de dados nas informações armazenadas no banco de dados, proporcionando realizar o mapeamento do desempenho dos alunos em tempo real de execução do curso. Com esse mapeamento o professor terá um feedback, que poderá auxiliar no estímulo de participação e melhora no desempenho, bem como evitar a reprovação e consequentemente a evasão do curso.. 1.1 Problema de Pesquisa. É possível pesquisar e analisar o desempenho do aluno no ambiente virtual de aprendizagem, por meio da aplicação de técnicas de mineração de dados, nas informações armazenadas no banco de dados, realizando o mapeamento do desempenho dos alunos durante o curso? Assim, busca-se um acompanhamento que possa auxiliar o professor na identificação individualizada do aluno em situação de risco para então intervir na melhora de seu desempenho. No contexto deste trabalho, o termo “desempenho” atribui-se ao resultado da nota obtida pelos alunos, ao realizar uma atividade proposta na disciplina ou curso..

(18) 17. 1.2 Hipótese. Os professores que utilizam ferramentas tecnológicas para mediar suas disciplinas, encontram dificuldades operacionais para acompanhar o processo de aprendizagem de seus alunos nos ambientes. Essa dificuldade se dá em virtude da grande quantidade de dados, que não são processados a tempo de auxiliar no desempenho do aluno durante a execução do curso/disciplina, e também no retrabalho com a análise contínua de dados em ferramentas diferentes, que poderiam estar integradas. A partir disto, apresenta-se a hipótese: A mineração de dados ao ser aplicada nos ambientes virtuais de aprendizagem pode auxiliar o professor na descoberta de informações, para conhecer o desempenho dos alunos no ambiente.. 1.3 Objetivo Geral. O objetivo geral desta dissertação consiste em pesquisar e analisar o desempenho do aluno no ambiente virtual de aprendizagem, por meio da aplicação de técnicas de mineração de dados, nas informações armazenadas no banco de dados, proporcionando realizar um mapeamento do comportamento dos alunos durante a execução do curso. Com esse mapeamento o professor terá um feedback, o qual possa auxiliar no estímulo de participação e melhora no aprendizado, bem com evitar à reprovação e consequentemente a evasão do curso.. 1.4 Objetivos Específicos. Para alcançar o objetivo geral, é preciso contemplar as seguintes etapas:. •. Identificar algoritmos disponíveis em softwares de mineração de dados,. que possam ser aplicados em bases de dados, para detectar o desempenho dos alunos no ambiente virtual e aprendizagem; •. Coletar e analisar os atributos que são relevantes, armazenados no. banco de dados do ambiente virtual de aprendizagem, para detectar o desempenho do aluno;.

(19) 18. •. Aplicar nas bases de dados, técnicas de mineração de dados para. extrair o conhecimento do desempenho de alunos no ambiente virtual de aprendizagem, para intervenção do professor em futuras decisões de ensino dos alunos; •. Integrar regras de mineração de dados ao ambiente virtual de. aprendizagem e avaliar os resultados.. 1.5 Estrutura da Dissertação. Para a apresentação da pesquisa realizada, estruturou-se esta Dissertação em seis capítulos correlacionados, que estão mencionados a seguir. No capítulo II (Revisão Bibliográfica) apresenta um levantamento bibliográfico relacionado aos temas inerentes à pesquisa bem como os trabalhos correlatos. No capítulo III (Metodologia de Pesquisa) é descrita a metodologia de desenvolvimento desta pesquisa de dissertação. No capítulo IV (DDAAV – Detector do Desempenho do Aluno em AVAs) apresenta a integração proposta, considerando os seus aspectos pedagógicos e tecnológicos. No capítulo V (Resultados) são apresentados os resultados e discussões referentes aos estudos realizados. E para finalizar, no capítulo VI, é apresentada a conclusão e sugestões de trabalhos futuros..

(20) 19. 2 REVISÃO BIBLIOGRÁFICA Este. capítulo. apresenta. uma. revisão. bibliográfica. sobre. os. temas. relacionados, em especial o uso de ambientes virtuais de aprendizagem, a descoberta de conhecimento em bases de dados, a mineração de dados e as tecnologias a serem utilizadas durante o desenvolvimento deste trabalho.. 2.1 Ambientes Virtuais de Aprendizagem. Os Ambientes Virtuais de Aprendizagem (AVAs) são softwares instalados em servidores web que possuem um conjunto de ferramentas, estas permitem a criação de cursos e o desenvolvimento da aprendizagem. Esses ambientes geralmente classificam seus usuários em três perfis pré-estabelecidos: Administrador, Professor e Aluno. Porém, é valido mencionar que existe outro perfil como o Tutor, que trabalha juntamente com o professor, ficando responsável pela mediação pedagógica (RODRIGUES, 2012). Os AVAs são softwares utilizados na prática de e-learning para gerenciar cursos de aprendizagem (OCHOA e DUVAL, 2009, FERTAJ et al. 2010 apud RODRIGUES, 2012, p. 44). Segundo Bozo et al. (2010, p. 472) AVAs são plataformas específicas em espaços virtuais de aprendizagem, onde os usuários fomentam o desenvolvimento do ensino, por meio da interação na realização das atividades entre diversos usuários. Pode se dizer que os AVAs não são utilizados somente na Educação a Distância (EaD), eles também estão nos cursos presenciais e blended-learning. A Portaria/MEC nº. 4.059 de 13 de Dezembro de 2004, no Art.1º. designa que as instituições de ensino superior poderão introduzir, na organização pedagógica e curricular de seus cursos superiores reconhecidos, a oferta de disciplinas integrantes do currículo que utilizarem modalidade semipresencial, com base no art. 81 da Lei n. 9.394, de 1.996. E no § 2º. Específica que poderão ser ofertadas as disciplinas referidas no caput, integral ou parcialmente, desde que esta oferta não ultrapasse 20% (vinte por cento) da carga horária total do curso. Sendo assim, para que o AVA seja um ambiente eficaz no processo de ensino/aprendizagem, necessita que a.

(21) 20. proposta pedagógica seja definida e coerente com os objetivos que o curso almeja atingir. Um dos ambientes amplamente usados no espaço educacional é o MOODLE, que é um acrônimo para “Modular Object-Oriented Dynamic Learning Environment”, é software Open Source, que teve seu desenvolvimento iniciado nos anos de 1990, por Martin Dougiamas, com base nas filosofias de aprendizagem do construtivismo e do construtivismo social, suportando a criação e administração de cursos com enfoque no trabalho colaborativo e um ambiente de simples e intuitiva utilização (MOODLE, 2011). Pode ser executado sobre os sistemas operacionais Windows, Mac e várias distribuições Linux, isso lhe garante uma alta portabilidade, possui o Sistema de Gerenciamento de Banco de Dados (SGBD) compatível com SQL (Structured Query Language), sendo o banco de dados MySQL o mais utilizado (MOODLE, 2011). Em meio a outros softwares livres existentes, que permitem o processo de ensino/aprendizagem, optou-se pelo MOODLE para realizar a presente pesquisa. A escolha se dá em virtude de ser um ambiente com grande quantidade de ferramentas; estar em constante atualização; possuir um vasto grupo de usuários que colaboraram com a sua evolução, além de viabilizar a integração de outras técnicas em seus repositórios. 2.1.1 Acompanhamento do Aprendizado em AVAs. O acompanhamento de aprendizado é um processo essencial, que objetiva fornecer informações com precisão e eficiência sobre o desenvolvimento e o progresso do aluno. Segundo Lopes (2003) na área da educação, acompanhar o aprendizado significa definir, por meio de instrumentos adequados, aspectos quantitativos e qualitativos do comportamento do aluno. Quando se menciona “aspectos”, se refere às variações de personalidade, como traços de caráter, temperamento, interesses, atitudes e até mesmo aspectos ligados diretamente com a aprendizagem, ou seja, indicadores daquilo que o aluno já aprendeu ou está aprendendo. Segundo Linderman (1986 apud LOPES, 2003, p. 35), o acompanhamento da aprendizagem do aluno é medido por meio de três características: aproveitamento,.

(22) 21. aptidões gerais e específicas e ajustamento pessoal-social. A seguir são descritas cada característica: A medida de aproveitamento abrange o que o aluno aprendeu, ou seja, quais os conhecimentos que o aluno adquiriu no momento em que é aplicado um teste. Com isso, pode-se analisar a eficácia do programa de instrução e até em que momento o aluno alcançou o nível de desempenho esperado. Nas medidas de aptidão gerais e específicas é possível detectar com antecedência o que o aluno poderia aprender, essas medidas indicam o nível de aprendizagem ou aproveitamento que se espera do aluno sob o aspecto de suas aptidões. Ao medir o ajustamento pessoal-social, o objetivo é detectar o número de características afetivas, cooperatividade, e de interesses. Um dos maiores interesses desta característica justifica-se pela relação destas com o aproveitamento nas áreas acadêmicas. De acordo com Lopes (2003, p. 35) “quando se refere ao acompanhamento do aprendizado em ambientes virtuais, o maior desafio encontrado é o de conduzir as inúmeras vantagens criadas pelas tecnologias e adaptar as metodologias de acompanhamento/monitoramento do aluno, bem como a de avaliação para que contenham possibilidades de mudança qualitativa”.. O monitoramento eficaz exige uma rede de indicadores que disponibilizem os dados necessários sobre o desempenho do aluno e do professor; isso precisa ser feito frequente e rotineiramente, e os dados precisam ser transferidos com uma rotina similar para um centro de controle onde possam ser avaliados. Avaliação nesse contexto é o processo de análise dos dados de feedback colhidos pelo sistema de monitoramento, revisão e tomada de decisões a respeito de grau de adequação com que o sistema de educação à distância e suas várias partes estão operando; de que modo alunos, instrutores, profissionais de criação, administradores de recursos de comunicação operam juntos para atingir as metas de curto e longo prazo. Para um sistema educacional, as metas mais importantes são os resultados do aprendizado; no entanto, outras metas são legítimas e podem ser monitoradas e avaliadas (por exemplo, manter o custo compatível ou retificar desequilíbrios demográficos na população de alunos) (MOORE & KEARSLEY, 2007, p. 26).. Segundo Lopes (2003, p. 36), uma forma de acompanhar o aluno inclui a acompanhamento de aprendizagem, que utiliza recursos tecnológicos para comunicação entre professores e alunos, pode garantir um bom desempenho no processo de avaliação, dessa forma auxilia no sucesso do ensino/aprendizagem..

(23) 22. Conforme Dietel et al. (1991, apud LOPES 2003, p. 22), a avaliação pode ser definida como qualquer método para melhor entender o conhecimento que um aluno possui e deve ser usado como um instrumento de auxilio ao aprendizado de uma forma construtivista de aquisição do conhecimento. De acordo com Melchior (1999, p. 37), a avaliação no processo educacional, serve para o diagnóstico do processo ensino/aprendizagem, como resultados do encaminhamento adequado para a sua aprendizagem. Segundo Bloom et al. (1971 apud LOPES 2003, p. 23), existe uma clássica definição para as formas de avaliação divididas em três tipos: . . . Avaliação Formativa: refere-se quando o professor faz uso de um conjunto de questões, testes e tarefas como forma de auxiliar o aluno para efetivar o aprendizado, fornecendo um feedback ao seu aperfeiçoamento, sem contabilizar alguma pontuação no resultado final. Avaliação Somativa: sua principal função é determinar o nível de desempenho alcançado pelo aluno durante o curso, pontuando e servindo como parâmetro para a classificação dos mesmos, alavancando a sua capacidade de memorização. Avaliação Diagnóstica: objetiva medir o grau de habilidade e de conhecimento dos alunos, sobre o assunto a ser abordado no decorrer da realização do curso e ao final como forma de levantar as possíveis falhas de aprendizagem.. As informações geradas por meio da avaliação permitem analisar com eficácia as estratégias didáticas e o programa/currículo do curso. As instituições de ensino superior podem influenciar positivamente no comportamento dos alunos e na estruturação dos cursos. Tinto (2000), argumenta que se as instituições permanecerem empenhadas em melhorar as condições de aprendizagem dos alunos, crescerá a probabilidade destes persistirem nos estudos. O processo de acompanhamento do aprendizado ocorre de maneira contínua e descritiva, permitindo uma análise de como se comporta o desenvolvimento da aprendizagem do aluno, ou seja, da sua experiência prática e teórica transmitidos no curso..

(24) 23. 2.2 O Processo de Descoberta do Conhecimento em Base de Dados - KDD. O avanço da tecnologia da informação tem permitido o armazenamento de grande volume de dados. Isso se deve aos dispositivos que se tornam mais rápidos e com maior capacidade de armazenamento. Outras tecnologias como Internet, Sistemas Gerenciadores de Banco de Dados (SGBD) e Sistemas de Informação (SI) em geral também contribuem para a existência de base de dados cada vez maiores (GOLDSCHMIDT e PASSOS, 2005). Embora existam analistas humanos capazes de extrair esse tipo de informação, o grau de dificuldade desta tarefa cresce proporcionalmente ao tamanho da base de dados, tornando-a relativamente complexa. Desse modo, o número de profissionais com aptidão para desempenhar esse tipo de tarefa, não cresce em igual proporção ao número de armazenamento de informações. Sendo assim, é necessário o auxílio de uma ferramenta que ajude os profissionais na tomada de decisão, uma vez que a análise não automatizada dos dados é uma tarefa demorada e podem ocorrer erros FERNANDES; RAMPELOTTI, (2003 apud LIMA, 2009, p. 13). O processo de Descoberta de Conhecimento em Bases de Dados (KDD Knowledge Discovery Databases) apresentado por Fayyad et al. (1996, p. 29), tratase de “um processo não trivial de identificar padrões válidos, não conhecidos, potencialmente úteis e interpretáveis”. Consistindo, basicamente, em descobrir o conhecimento útil nos dados armazenados, a partir da aplicação de técnicas modernas de mineração de dados, da avaliação dos padrões obtidos e da interpretação dos resultados. Segundo os autores Fayyad et al. (1996; Witten et al., 2011 apud GOTTARDO, 2012, p. 21) as técnicas de mineração de dados tem se desenvolvido rapidamente em grandes áreas como vendas, marketing e serviços financeiros e, mais recentemente na área educacional de acordo com Romero et al. (2008a; BAKER, 2010; ZORRILA et al., 2005 apud GOTTARDO, 2012, p. 21). O processo de KDD abrange etapas complexas, cada uma necessita ser executada atentamente, pois é de suma importância para que os objetivos estabelecidos e o sucesso completo da aplicação sejam alcançados. O processo é ilustrado na Figura 1..

(25) 24. Figura 1 – Etapas do processo de KDD. Fonte: Adaptado de Fayyad, 1996, p. 10.. As etapas do processo de KDD são divididas em três: Pré-processamento, Pós-processamento e Mineração de Dados. Cada uma dessas fases estão descritas com mais detalhes, nas seções seguintes.. 2.2.1 Pré-processamento. As. transformações. realizadas. no. pré-processamento,. segundo. Tan;. Steinbach; Kumar (2006) tem por objetivo melhorar a qualidade dos dados, para que se tornem mais adequados para a mineração, o que consequentemente garante bons resultados de análise ao final do processo. Halmenschlager (2002, p. 19) descreve as etapas para realização de Préprocessamento:. a) Desenvolvimento de um entendimento do domínio da aplicação: a aquisição de um prévio conhecimento e identificação de uma ação específica, ou seja, o que o usuário deseja conhecer e fazer com esse conhecimento. Para que isso aconteça o especialista e o analista devem trabalhar juntos, para especificar o problema a ser resolvido. O domínio da aplicação unifica o hardware, o software e a qualidade dos dados disponíveis; desenvolver um inventário com a base dados; selecionar funcionalidades que necessitam de apoio no processo de decisão; identificar os.

(26) 25. processos que sofrem transformações nas bases de dados antes de serem utilizadas.. b) Seleção dos dados: criação de um conjunto para servir de exemplo, por meio de uma cópia dos dados originais. Esse conjunto envolve os atributos relevantes para a descoberta de informações importantes. Entretanto, selecionar e integrar dados não é uma tarefa fácil, requer conversão das tabelas de baixo nível de dados, pois o algoritmo não trabalha com múltiplas tabelas.. c) Limpeza dos dados: etapa em que são escolhidas as estratégias que manipulam as informações inconsistentes, redundantes e com valores nulos. Portanto, para realizar a limpeza é essencial ter conhecimento dos mesmos para assim explorá-los.. d) Transformação dos dados: etapa que localiza características comuns para representá-los, por meio da redução dos dados, significando apresentar as informações da base de dados de maneira diferente da base de dados original.. 2.2.2 Pós-processamento. Na etapa de pós-processamento, Tan; Steinbach; Kumar (2006) considera que é de suma importância verificar a validade dos dados, obtidos após a sua mineração. Pois, esses são os cernes que servirão de base para os sistemas de apoio de decisão. Halmenschlager (2002, p. 19) destaca as etapas de realização do Pósprocessamento:. a) Interpretação dos padrões enumerados: analisar e avaliar dentro dos padrões encontrados, o que constitui e o que não constitui o conhecimento útil, podendo nesta etapa ter que retornar a uma das etapas iniciais do processo.. b) Consolidação da descoberta: demonstrar aos usuários o conhecimento adquirido, por meio de documentos ou relatos as técnicas de visualização na base de dados..

(27) 26. 2.2.3 Mineração de Dados. Mineração de Dados (MD), ou Data Mining, pode ser considerada a etapa mais importante de todo o processo de KDD, que transforma dados brutos em informação. De acordo com Tan et al. (2006), mineração de dados é um processo de descoberta de padrões úteis em grandes repositórios de dados. O termo Mineração de Dados é considerado multidisciplinar, abrangendo as áreas de estatística, aprendizado de máquina e banco de dados. Em Zhou (2003), é apresentada uma análise comparativa sobre as três perspectivas citadas.. •. Em Hand et al. (2001, p. 82), a definição de uma perspectiva estatística: “Mineração de Dados é uma análise de grandes conjuntos de dados a fim de encontrar relacionamentos inesperados e de resumir os dados de uma forma que eles sejam tanto úteis quanto compreensíveis ao dono dos dados”.. •. Em Cabena et al. (1998, p. 25), a definição de uma perspectiva de banco de dados: “Mineração de Dados é um campo interdisciplinar que junta técnicas de máquina de conhecimentos, reconhecimentos de padrões, estatísticas, banco de dados e visualização, para conseguir extrair informações de grandes base de dados”.. •. Em Fayyad et al. (1996, p. 38), a definição de uma perspectiva do aprendizado de máquina: “Mineração de Dados é uma etapa no processo de Descoberta de Conhecimento que consiste na realização da análise dos dados e na aplicação do algoritmo, que com algumas limitações aceitáveis de eficiência computacional, produzem um conjunto de padrões sobre os dados”.. Neste contexto, o processo de MD abrange a seleção de dados, preparação, aplicações de tarefas, e/ou técnicas com seus algoritmos correspondentes, para efetuar as análises dos resultados, com o objetivo de detectar os conhecimentos extraídos. A seguir, são descritas por alguns autores as tarefas de MD e na sequência as técnicas envolvidas em cada processo..

(28) 27. 2.2.3.1 Tarefas de Mineração de Dados. Os autores Goldschmidt e Passos (2005) e Dias (2001) abordam que as técnicas de mineração de dados são aplicadas a diferentes tarefas de problemas conhecidos a serem resolvidos. Estas são: Associação, Regressão/Estimativa, Sumarização, Segmentação/Custering e Classificação.. a) Associação. A tarefa de associação de acordo com Harrison (1998) consiste em descobrir atributos que acontecem simultaneamente com grande frequência. Para analisar a qualidade das regras desta tarefa, são utilizados parâmetros de suporte e confiança, sendo que no suporte a porcentagem de combinações da base de dados contêm os itens A e B. Para Motta (2010, p. 8) uma regra de associação é uma implicação da forma: A → B, em que A. ⊆ I, B ⊆ I e A ∩ B = ø. Neste caso, lê-se A implica em B,. em que A é chamado antecedente e B é o consequente da regra. O algoritmo de associação mais utilizado é o Apriori, sugerido por AGRAWAL et al. (1993 apud WINCK, 2012, p. 34), esse algoritmo parte do princípio que em um conjunto de elementos é frequente, os seus subconjuntos também o são.. b) Classificação. A tarefa de classificação consiste em construir um modelo que possa ser aplicado em um conjunto de dados objetivando categorizá-los em classes. Um dado é analisado e classificado em uma classe definida, onde os algoritmos procuram a descoberta de funções e mapeiam registros em classes pré-definidas (HARRISON, 1998). Tan; Steinbach; Kumar, (2009) complementam que um classificador é baseado em um conjunto de regras que classificam registros, onde “se <condição>” contém os atributos e seus valores e “então <conclusão>” contém a classe do conjunto de dados. De acordo com HAN e KAMBER (2006 apud GOTTARDO, 2012) o conjunto de dados classificado é organizado em forma hierárquica, que segue um caminho.

(29) 28. que atenda as condições, com início pela raiz e finalizando até uma das folhas. Os algoritmos desse grupo são C 4.5, CART e RandomForest.. c) Estimativa (ou Regressão). A estimativa tem por objetivo determinar algum valor mais provável diante de dados já existentes ou de dados semelhantes sobre o qual existe conhecimento (HARRISON, 1998). Para Scoss (2006, p. 29 apud PASTA, 2011, p. 72) a estimativa ou regressão é similar à tarefa de classificação, mas se limita a atributos numéricos. Ela busca por funções, que possam mapear registros de um banco de dados, com objetivo de definir um valor numérico desconhecido, por meio de valores entre as variáveis já conhecidas.. d) Segmentação (ou Clustering). A tarefa de segmentação para Harrison (1998) é um processo de partição de uma população heterogênea em vários subgrupos ou clusters homogêneos. Cada cluster mostra internamente ampla similaridade, e significativa diferença em relação a outros clusters do conjunto de dados. Para Martinhago (2005) Um cluster pode ser definido como um conjunto de objetos agrupados pela similaridade ou proximidade e, a segmentação pode ser definida como a tarefa de segmentar uma população heterogênea em um número de subgrupos (ou clusters) mais homogêneos possíveis, de acordo com alguma medida (MARTINHAGO, 2005, p. 22).. A clusterização é considerada uma tarefa que identifica um conjunto finito de categorias com o objetivo de descrever seus dados.. e) Sumarização. A tarefa de sumarização conforme Fayyad (1996 apud PASTA 2011, p.76) consiste em indicar características comuns entre conjuntos de dados. Com a.

(30) 29. utilização de métodos é possível encontrar uma descrição compacta para um subconjunto de dados.. 2.2.3.2 Técnicas de Mineração de Dados. As técnicas de MD são implementações de algoritmos de aprendizado de máquina, divididas em duas categorias: técnicas preditivas e técnicas descritivas. Segundo Tan (2006) as técnicas preditivas têm como objetivo descobrir o valor futuro de um determinado atributo, com base nos valores de outros atributos, ou seja, predizer o valor de uma ação nos próximos x anos.. a) Algoritmos Genéticos. Os algoritmos genéticos para Goebel e Gruenwald, (1999 apud DIAS, 2001, p. 13) são métodos que se baseiam no processo genético e simulam os processos naturais dos seres vivos com o intuito de resolver determinados problemas de busca e otimização. Consideradas técnicas heurísticas que buscam boas soluções para um problema, mas não basicamente uma solução ótima de resolução. Um exemplo de algoritmo usado é o algoritmo genérico simples.. b) Descoberta de Regras de Associação. Para Barioni (2002, p. 17 apud PASTA, 2011, p. 73) a técnica abrange a descoberta de regras de associação que executam correlações entre os objetos de um banco de dados e o relacionamento entre eles.. c) Árvores de Decisão. Crepaldi (2006) cita que uma árvore de decisão é quando cada nó representa uma decisão emergindo em outros nós com diferentes alternativas para uma decisão em particular. Cada nó é um atributo representando um conjunto de valores possíveis e ao final de cada árvore, as folhas são associadas a uma classe, e cada percurso na árvore é correspondente a uma regra de classificação. A profundidade.

(31) 30. da árvore é definida pela distância entre uma folha e a raiz variando as características dos atributos Crepaldi (2006 apud AFIUNE, 2012, p. 31).. d) Raciocínio Baseado em Casos. A técnica de raciocínio baseado em casos é igualmente conhecida como MBR (Memory-Based Reasoning - raciocínio baseado em memória), que é embasado no método do vizinho mais próximo. O método procura os vizinhos mais próximos e combinam seus valores para atribuir valores de classificação, em que a distância dos vizinhos dá uma medida da exatidão dos resultados (HARRISON, 1998 apud DIAS 2001, p. 12).. c) Redes Neurais Artificiais. A técnica de redes neurais é um conjunto de sistemas modelados seguindo analogia do funcionamento do cérebro humano, e compostas de neurônios artificiais, conectados de maneira similar aos neurônios humanos (GOEBEL e GRUENWALD, 1999). Segundo Witten et al., (2011) essa técnica consiste em executar uma interconexão dos elementos chamados de neurônios, que produzem uma função de saída Não existe uma única técnica capaz de solucionar todos os problemas de mineração de dados, pois cada técnica oferece vantagens e desvantagens para a sua utilização. É necessário conhecer o potencial de seu funcionamento e a partir deste, fazer a escolha do método de aplicação nos dados a trabalhar (HARRISON, 1998). Portanto, a tarefa a ser utilizada para a mineração dos dados desta pesquisa é a de classificação, que executa a técnica de árvore de decisão. A escolha reflete o objetivo desta pesquisa, que busca por meio das condições oferecidas pela tarefa identificar o desempenho do aluno, com o resultado das notas obtidas ao realizar atividades..

(32) 31. 2.3 Ferramentas de Mineração de Dados. Com o crescente número de informações digitais, cresce o interesse na descoberta de conhecimento implícito nestas informações, tanto no uso de ferramentas genéricas da Inteligência Artificial ou da área Estatística. De acordo com Goebel e Gruenwald (1999 apud VIEIRA, 2008), existem algumas características que devem ser consideradas, para escolher uma ferramenta de descoberta de conhecimento: . Habilidade de acesso a uma variedade de fontes de dados, de forma online e off-line;. . Capacidade de incluir modelos de dados orientados a objetos ou modelos não padronizados;. Capacidade de processamento com relação ao número máximo de tabelas, registros ou atributos; Capacidade de processamento com relação ao tamanho do banco de dados; Variedade de tipos de atributos que a ferramenta pode manipular; Tipo de linguagem de consulta. O autor Cruz (2007, p. 45) contabilizou em sua pesquisa 159 ferramentas de mineração de dados, após selecionar as com funcionalidade específica (mineração) restou ao final com 36 ferramentas. As ferramentas selecionadas foram caracterizadas. mediante. alguns. critérios,. sendo. eles:. versão,. licença,. disponibilidade, aplicação de uso e arquitetura. Na sequência são descritos os critérios e ilustrados na Tabela 1.. a.) Versão: final (F) ou beta (B); b.) Licença: comercial (C), freeware e shareware (F) ou pública (P); c.) Disponibilidade: se é ou não disponibilizada na versão de demonstração (Demo) ou totalmente operacional para download (Download); d.) Aplicação de uso: acadêmica (A) ou comercial (C); e.) Arquitetura: stand alone (S), cliente/servidor (C/S) ou processamento paralelo (PP)..

(33) 32. Tabela 1 – Ferramentas de mineração de dados e suas características.. Ferramenta. Versão. Licença. Disponibilidade. Uso. Arquitetura. Alyuda Neuro Inteligence. F. C. S. C. S. BrainMaker. F. C. N. A/C. S. BSVM. F. D. S. A. S. Clementine. F. C. N. C. S/C S. DTREG. F. C. S. A/C. S. EQUBITS Foresight (tm). F. C. S. A/C. S. EWA Systems. F. C. N. A/C. S/C S. GhostMiner. F. C. N. S. Gist. F. F. S. A/C A. Gornik. F. C. N. C. S/C S. Insightful Miner. F. C. S. A/C. S/C S. Kernel Machines. F. F. S. A. S. Knowledge Miner. F. C. S. A/C. S. KXEN. F. C. N. C. S/C S. LIBSVM. F. F. S. A. S. MATLAB NN Toolbox. F. C. S. A. S. MCubiX from Diagnos. F. C. N. C. S. MemBrain. F. F. S. A. S. NeuralWorks Predict. F. C. S. C. S. NeuroSolutions. F. C. S. A/C. S/C S. NeuroXL. F. C. N. C. S. IPNNL Software. B. F. S. A. S. Oracle Data Mining. F. C. S. C. S,S/C,PP. Orange. F. F. S. A. S. PcSVM. B. P. S. A. S. R. F. P. S. A. S. SAS Enterprise Miner. F. C. S. A/C. S/C. StarProbe. F. C. S. A/C. S/C S. STATISTICA NN. F. C. S. A. S/C S. SvmFu 3. B. P. S. A. S. SVM-light. F. F. S. A. S. TANAGRA. F. F. S. A. S. HhinkAnalitics. F. C. N. C. S/C. Tiberius. F. C. S. A/C. S/C S. WEKA. F. P. S. A. S. XLMiner. F. C. S. A/C. S. Fonte: Adaptado de Cruz (2007, p. 45).. S.

(34) 33. Diante da vasta gama de ferramentas de Mineração de Dados existentes, se torna necessário efetuar a seleção de uma ferramenta, por meio de seus critérios específicos, para que contemplem os objetivos pretendidos. A escolha da ferramenta WEKA para esse trabalho justifica-se devido à mesma tornar o sistema portável e apresentar uma linguagem multiplataforma orientada a objetos. A portabilidade da linguagem permite a ferramenta ser executada em plataformas diferentes, e sua orientação a objetos produz vantagens como modularidade, poliformismo, encapsulamento, reutilização de código entre outras (JACOMINI, 2008).. 2.3.1 Ferramenta WEKA. O WEKA é um software formado por um conjunto de algoritmos de aprendizagem de máquina, que implementam várias técnicas que são utilizadas para a resolução de problemas reais de mineração de dados. O WEKA, do acrônimo (Waikato Environment for Knowledge Analysis), é um software de código aberto, desenvolvido na linguagem Java por universitários da Universidade de Waikato na Nova Zelândia, no ano de 1999 e sua licença é General Public License (GPL) o que significa que é um programa de distribuição e difusão livre1. De acordo com Waikato (2008), o software WEKA fornece implementações de algoritmos. de. aprendizagem,. possui. métodos. de. pré-processamento,. pó-. processamento de dados e avaliação de resultados. Nele está incluso métodos para classificação, regressão, clusterização e regras de associação e seleção de atributos. O software WEKA é utilizado por meio da interface gráfica, representada pela Figura 2 conhecida como Weka Explorer ou no modo console, fazendo a chamada de algoritmos. Conforme Goldchmidt e Passos (2005) o WEKA pode ser utilizado de diferentes formas, em função de possuir quatro interfaces implementadas, que são:. 1. Disponível em: <http://www.cs.waikato.ac.nz/ml/weka>..

(35) 34. a) Explorer: Interface mais comum, que disponibiliza separadamente as etapas de pré-processamento (filtros), mineração de dados (associação, clusterização e classificação); b) Experimenter: Nesta interface podem ser avaliados os desempenhos dos algoritmos de aprendizagem por meio de avaliações estatísticas; c) Knowledge-flow: É a interface gráfica que permite criação de um fluxo de processos de KDD; d) Simple client: Esta interface permite a interação com o usuário, para inserção de linhas de comandos, onde é realizada qualquer operação suportada pelo WEKA.. Figura 2 – Interface gráfica inicial do WEKA e a Interface gráfica Explorer.. Segundo Goldchmidt e Passos (2005), para todos os algoritmos a entrada de dados é representada na forma de uma tabela relacional incluída em um arquivo no formato ARFF (Attribute-Relation File Format) o qual consegue manipular os dados..

(36) 35. O software consegue também acessar os dados de uma URL (Uniform Resource Locator) ou de um banco de dados, utilizando a linguagem SQL (Structured Query Language) por meio da conexão JDBC (Java Database Connectivity). A Figura 3 mostra uma representação de um arquivo ARFF, que é constituído da seguinte forma: Linhas do arquivo iniciadas pelo caractere “%”: são consideradas comentários; Linhas do arquivo iniciadas com “@relation”: é o nome que identifica o conjunto de dados a serem trabalhados; Linhas do arquivo iniciadas com “@attribute”: são informações indicando os atributos do conjunto e os valores possíveis de assumir (para valor numérico, apenas indicar numeric); Linhas do arquivo iniciada com “@data”: sinaliza o início da apresentação dos registros da base de dados, cada registro separado por vírgula e cada linha representando uma transação.. Figura 3 – Exemplo de arquivo no formato ARFF, utilizado como entrada na ferramenta WEKA. Fonte: Adaptado de Waikato, 2008, p. 57.. O último atributo especificado no cabeçalho será adotado por padrão pelo WEKA como sendo a classe a ser testada. Os demais atributos são considerados os atributos preditivos, ou seja, o número de atributos classificados corretamente..

(37) 36. 2.4 Trabalhos Correlatos. Esta subseção é dedicada à apresentação de alguns trabalhos relacionados ao tema desta pesquisa. A análise dos trabalhos serviu para indicar premissas teóricas utilizadas como embasamento no presente estudo. O trabalho de Maia et al. (2010) descreve sobre desempenho futuro de estudantes em disciplinas de um curso de graduação, são realizadas análises a partir das notas obtidas em disciplinas já cursadas. Os autores apresentam um modelo que representa os alunos com base na teoria dos grafos. Neste modelo, os alunos e as disciplinas do curso foram modelados como nós e a representação deles como as arestas que compõem um grafo. Com as relações semelhantes extraídas por meio dos grafos, modelos de crescimento baseados em redes complexas foram capazes de prever a evolução do grafo, com as notas obtidas pelos alunos. Os autores relataram que, entre as disciplinas existe uma grande variação nos valores dos erros médios analisados, variando de 3,6% a 100%. No entanto, os autores concluem que um erro médio significativo para uma disciplina poderia indicar: que a mesma não possui grande relação com as outras disciplinas do currículo, ou a avaliação apresenta algum grau de desconexão com os resultados obtidos em outras disciplinas. Os autores Minaei-Bidgoli et al. (2003) apresentam em seu trabalho a aplicação de uma técnica chamada de Combination of Multiple Classifiers - CMC. A técnica consiste em usar algoritmos de classificação no conjunto de dados, seguidos por um “ponto”. A classe que obtiver o maior número de “pontos” será a preferencial. O estudo utilizando essa técnica utilizou dados de um AVA, como respostas de atividades, número de acessos do usuário, tempo de acesso, entre outros. O objetivo principal do trabalho era classificar os estudantes após a conclusão da disciplina “Introductory Physics”, de acordo com a nota final da mesma. Os autores descrevem que a técnica CMC apresentou taxa média de acerto de 70,9% na classificação de estudantes no experimento. Em Afiune (2012) para verificar altos índices de evasão de alunos em cursos à distância, foi realizada uma pesquisa de campo através de uma entrevista com um profissional de EaD, para identificar alguns indícios de evasão de cursos. A partir dos atributos identificados, um protótipo foi concebido visando identificar com os registros de logs do usuário armazenados no banco de dados, as informações.

(38) 37. destes alunos. O trabalho segue a linha de KDD em base de dados e utilizou a ferramenta WEKA, em específico o algoritmo de classificação J48 que identifica a predição comportamental por meio da apresentação de árvores de decisão. O autor finaliza a pesquisa, afirmando que é possível identificar por meio do acesso no AVA, padrões de uso e determinados diagnósticos com indícios de evasão, assim propor medidas corretivas para que um aluno passe a ter um comportamento considerável no uso de um AVA. Segundo Gottardo (2012) os AVAs usados para apoiar os cursos presenciais, caracterizam-se por armazenar um grande volume de dados. Esses ambientes necessitam de ferramentas que filtrem informações úteis, para o acompanhamento eficiente dos alunos. A pesquisa investigou os dados armazenados no AVA, para extrair informações relativas ao desempenho dos alunos. Para detectar essas informações foi necessária a seleção de um conjunto de atributos, considerando três dimensões: perfil do aluno de uso do AVA, interação estudante-estudante e interação bidirecional estudante-professor. Buscando-se atingir o objetivo, um estudo com sete experimentos, foi realizado para identificar diferentes cenários com o conjunto de atributos propostos para representar os estudantes e seu desempenho acadêmico. Foram utilizados os algoritmos de classificação RandomForest e MultilayerPerceptron disponíveis na ferramenta de WEKA, salienta-se que em todos os experimentos foi utilizado o método “K-fold Cross-Validation” como técnica de estratificação de dados. Os resultados obtidos na aplicação de técnicas de MD sobre o conjunto de atributos selecionados demonstraram que é possível obter inferências relativas ao desempenho do aluno com taxas de acurácia global variando entre 72% a 80%, mas deixa específico que a taxa de acurácia pode ser insuficiente para avaliar a qualidade do modelo de classificação, uma vez que, o número de instâncias das classes foi desbalanceado nos casos de estudo, devido a cada um ser em diferentes cenários. Dias et al. (2008) apresenta um estudo de caso no AVA denominado LabSQL, utilizado para o ensino da linguagem SQL. Os dados armazenados no banco de dados do ambiente, oriundos da realização das atividades apresentadas em forma de lista de exercícios para que o aprendiz treine suas habilidades, auxiliaram na aplicação das técnicas de MD: árvore de decisão e redes bayesianas. Para o desenvolvimento foram analisadas sete turmas, quatro delas de pós-graduação e as demais de graduação. As turmas eram compostas de aproximadamente trinta alunos.

(39) 38. da modalidade de ensino semipresencial, totalizando 272 registros com 18 atributos selecionados. Na técnica de Redes Bayesianas foi utilizado o software Bayerware Discoverer, o resultado destacou que a demora em realizar a inscrição no curso influência na média da quantidade de acessos, na utilização ou não da agenda e no total de valores obtidos pelos usuários. Observou-se também que a quantidade de acessos influenciou no total de problemas respondidos. A outra técnica aplicada foi a árvore de decisão, por meio do uso da ferramenta WEKA, que implementa o algoritmo J48 componente da tarefa de classificação. A técnica verifica a precisão de modelos de classificação, que obtiveram uma média de 83,13% de acurácia. Os autores concluem a pesquisa descrevendo que as técnicas de MD demonstram-se eficientes para a análise do comportamento dos alunos e professores em um curso oferecido em um ambiente de EaD. Dentre os trabalhos correlatos, não foram detectadas análises com foco no desempenho no aluno no ambiente virtual de aprendizagem, em tempo real de execução de curso. No entanto, há indícios que este tipo de análise seja importante para que o professor possa auxiliar no estímulo de participação e melhora no desempenho de aprendizagem dos alunos. Apesar dos objetivos dos trabalhos relacionados serem diferentes, as abordagens dos mesmos contribuíram em algumas das etapas do trabalho desenvolvido..

(40) 39. 3 METODOLOGIA DA PESQUISA Com a finalidade de alcançar os objetivos propostos, este capítulo aborda o detalhamento de métodos e técnicas utilizados no trabalho. Descreve a explicação sobre o tipo de pesquisa, a definição da unidade de análise, os instrumentos para a coleta de dados e as estratégias para análise dos dados. Quanto à natureza da pesquisa, este trabalho se classifica como uma pesquisa de campo do tipo qualitativo-descrita. Conforme Lakatos e Marconi (2003) uma pesquisa de campo tem por objetivo obter informações em um problema, para o qual se procure uma resposta, a fim de descobrir a relação entre ambos. O que caracteriza este trabalho como uma pesquisa de campo, são as informações dos alunos armazenadas no banco de dados de um AVA, com o objetivo de extrair informações relevantes relacionadas ao desempenho durante a realização de um curso. A seguir são descritas as etapas de pesquisa que foram definidas para o desenvolvimento. do. trabalho,. visando. esclarecer. de. forma. detalhada. os. procedimentos metodológicos adotados: Na primeira etapa do desenvolvimento, para a aplicação de mineração de dados no AVA, foi realizada uma pesquisa bibliográfica para que fosse possível ter conhecimento de como funciona a descoberta do conhecimento em base de dados, conhecer e analisar o funcionamento das etapas de mineração de dados (tarefas e técnicas), funcionalidade das ferramentas de mineração de dados disponíveis, servindo como procedimento básico para o estudo do “estado da arte” sobre o tema deste trabalho. A segunda etapa, envolveu dois momentos: a montagem de uma infraestrutura de hardware que comportou a instalação, desenvolvimento e implementação deste trabalho, composta de um servidor Dell Power Edge T300, com processador Intel Xenon Quadcore X3363 2.83Ghz com 4 núcleos físicos e 4 núcleos virtuais, memória RAM de 8GB, 2 discos rígidos de 500GB e sistema operacional Windows Server 2008 de 64 bits. Neste servidor foram instalados os seguintes programas: o WampServer2 versão 2.2, que disponibiliza em seu pacote softwares que são necessários ao funcionamento do MOODLE, nele estão o 2. Disponível em: http://www.wampserver.com/..

(41) 40. servidor Apache versão 2.2.22; banco de dados MySQL versão 5.5.24; PHP versão 5.2.13 e PhpMyadmin versão 3.4.10.1. Após partiu-se para a instalação do AVA MOODLE3 versão 2.5.2. Para o desenvolvimento, edição e manipulação do ambiente, foi utilizado um notebook Philco com processador Intel Pentium Dual-Core, SU 4100 1.3Ghz, memória RAM de 2GB, disco rígido de 320GB e sistema operacional Windows 7 Ultimate de 64 Bits. A partir da instalação do ambiente MOODLE, para compor o cenário de investigação trabalhou-se com a base de dados da disciplina de Introdução à Integração de Mídias na Educação, que compõem a base curricular do Curso de Especialização em Mídias na Educação, Pós-Graduação Lato Sensu, da Universidade Federal de Santa Maria (UFSM), ofertado na modalidade EaD, durante o segundo semestre de 2012. A disciplina citada integra nesta edição 134 (cento e trinta e quatro) alunos, distribuídos em 5 (cinco) polos (Cachoeira do Sul, Cruz Alta, Panambi, Restinga Seca e Santana do Livramento). Na terceira etapa, iniciou-se o processo de modelagem de funcionamento do bloco. A modelagem proposta foi realizada com a ferramenta Astah Community,que permite a construção de diagramas UML (Unified Modeling Language) tais como: diagramas de caso de uso, diagramas de atividade, dentre outros. A Astah Community (ASTAH, 2010) é um software de modelagem gratuita para o projeto de sistemas orientados a objetos, baseado nos diagramas e na notação da UML e pode gerar código na linguagem JAVA. A quarta etapa envolveu a instalação da ferramenta WEKA versão 3.7.8, desenvolvida na linguagem de programação JAVA, a qual disponibiliza diversos algoritmos de pré-processamento de dados bem como de análise de resultados. No software foram gerados arquivos na extensão (*.arff) com suas respectivas regras, para ser executado o algoritmo J48. Este algoritmo permite a construção de árvores de decisão que classifica e apresenta em suas ramificações os atributos de maior relevância. Na quinta etapa, foi realizada a tradução das regras geradas no software WEKA com a extensão (*.arff), para a linguagem PHP. As informações foram extraídas do banco de dados do ambiente MOODLE, no formato de uma planilha eletrônica do Excel (nota, polo e situação). Após, as mesmas foram processadas na 3. Disponível em: https://moodle.org/downloads/..

(42) 41. ferramenta WEKA, que originou um arquivo no notepad gerado na extensão (*.arff). Na sequência, o arquivo gerado foi convertido para a linguagem de programação PHP por meio do software PHP Editor. Na sexta etapa, foi realizada a construção do bloco, que recebe o valor de quaisquer atividades propostas na disciplina, para serem analisadas e a integração do mesmo no ambiente de aprendizagem MOODLE. O bloco desenvolvido funciona por meio de um plugin implementado através de uma API, que permite sua aplicação na interface do ambiente. Na sétima etapa, foram realizados os testes para validar a integração, em cada etapa de desenvolvimento, por meio do teste caixa branca (teste realizado pelo desenvolvedor). Segundo Sommerville (2003), os testes são derivados do conhecimento da estrutura e da implementação do software, ou seja, o desenvolvedor busca testar e conhecer todo o código do sistema, examinando o caminho. lógico. para. verificar. o. funcionamento. da. ferramenta.. Para. o. desenvolvimento em questão foram utilizados os seguintes: Teste de caminho básico - consiste em verificar se cada instrução do sistema foi executada pelo menos uma vez durante as atividades de teste. Teste de condição - baseia-se em verificar se todas as condições lógicas contidas no sistema, ou seja, erros comuns de condição como: parênteses, operador relacional e expressões aritméticas (PRESSMAN, 2011). O primeiro teste foi realizado após a geração das regras no formato (*.arff), em que foi verificada a consistência do algoritmo J48. O segundo teste foi feito após a tradução das regras para a linguagem PHP. No teste final foi validado o bloco após a sua integração no ambiente MOODLE. Com o plugin já ativo, o professor informa o número correspondente à atividade proposta na disciplina, como resposta é apresentado um relatório na forma de página web, informando apenas os alunos que obtiveram baixo desempenho. O resultado encontra-se armazenado nas tabelas do banco de dados SQL do ambiente MOODLE, com as informações sobre as atividades desenvolvidas. E. para. finalizar,. na. oitava. etapa. foram. gerados. relatórios. de. acompanhamento do desempenho do aluno (criação com a linguagem PHP) e criação da árvore de decisão e gráficos (software WEKA)..