• Nenhum resultado encontrado

Um processo analítico de dados educacionais: uma abordagem baseada nos dados socioeconômicos e educacionais dos alunos

N/A
N/A
Protected

Academic year: 2021

Share "Um processo analítico de dados educacionais: uma abordagem baseada nos dados socioeconômicos e educacionais dos alunos"

Copied!
95
0
0

Texto

(1)

UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE INSTITUTO METRÓPOLE DIGITAL

PROGRAMA DE PÓS-GRADUAÇÃO EM INOVAÇÃO EM TECNOLOGIAS EDUCACIONAIS

MESTRADO PROFISSIONAL EM INOVAÇÃO EM TECNOLOGIAS EDUCACIONAIS

PEDRINA CÉLIA BRASIL

UM PROCESSO ANALÍTICO DE DADOS EDUCACIONAIS: UMA ABORDAGEM BASEADA NOS DADOS SOCIOECONÔMICOS E EDUCACIONAIS DOS

ALUNOS

NATAL-RN 2019

(2)

Universidade Federal do Rio Grande do Norte - UFRN Sistema de Bibliotecas - SISBI

Catalogação de Publicação na Fonte. UFRN - Biblioteca Central Zila Mamede

Brasil, Pedrina Célia.

Um processo analítico de dados educacionais: uma abordagem baseada nos dados socioeconômicos e educacionais dos alunos / Pedrina Célia Brasil. - UFRN, 2019.

95 f.: il.

Dissertação (Mestrado) - Universidade Federal do Rio Grande do Norte, Instituto Metrópole Digital, Programa de Pós-Graduação em Inovação em Tecnologias Educacionais. Natal, RN, 2019.

Orientadora: Profª Dra. Isabel Dillmann Nunes.

1. Learning Analytics - Dissertação. 2. Ambientes Virtuais de Aprendizagem - Dissertação. 3. IFRN. I. Nunes, Isabel Dillmann. II. Título.

RN/UF/BCZM CDU 004:37.018.43

(3)

PEDRINA CÉLIA BRASIL

UM PROCESSO ANALÍTICO DE DADOS EDUCACIONAIS: UMA ABORDAGEM BASEADA NOS DADOS SOCIOECONÔMICOS E EDUCACIONAIS DOS ALUNOS

Dissertação apresentada ao curso de Pós-graduação em Inovação em Tecnologias Educacionais, da Universidade Federal do Rio Grande do Norte, como requisito parcial à obtenção do título de Mestre em Inovação em Tecnologias Educacionais

Aprovada em: 01/11/2019

BANCA EXAMINADORA

______________________________________ Profa. Dra. Isabel Dillmann Nunes

Orientadora

Universidade Federal do Rio Grande do Norte ______________________________________

Profa. Dra. Apuena Vieira Gomes Membro interno

Universidade Federal do Rio Grande do Norte

______________________________________ Prof. Dr. Fabiano Azevedo Dorça

Membro externo

(4)

AGRADECIMENTOS

Gostaria de fazer aqui um agradecimento a todos aqueles que de alguma forma contribuíram nesta dissertação. À minha orientadora Profa. Dra. Isabel Dillmann Nunes, pela sua cooperação e infinita paciência. Aos meus amigos Tainá Medeiros, Welkson Renny, Thiago Medeiros e Carlos Breno pela colaboração e disponibilidade em trocar ideias. À minha família, que sempre esteve comigo me apoiando em todas as horas, obrigada pelo incentivo, pelo carinho e por todo café disponível nas noites longas. Por fim, a equipe da Diretoria de Gestão de Tecnologia da Informação do IFRN que viabilizaram o desenvolvimento desta pesquisa.

(5)

Mesmo desacreditado e ignorado por todos, não posso desistir, pois para mim, vencer é nunca desistir. Albert Einstein

(6)

RESUMO

O Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte (IFRN) tem como função social transformar a região na qual está inserido. Conforme seu Projeto Político-Pedagógico (PPP), qualquer ação relacionada aos cursos do IFRN deve ser dimensionada de forma ampla e integrada. Entretanto, a heterogeneidade e o elevado número de alunos em sala de aula aliados a escassez de tempo e de ferramentas que auxiliem o processo de tomada de decisão pedagógica, corroboram com uma organização curricular fechada que ignora o contexto social dos alunos e favorece a realização de ações padronizadas. Desta forma, esta pesquisa tem como objetivo propor um processo analítico que auxilie o professor a interpretar seu contexto de aprendizagem a partir dos dados socioeconômicos e educacionais dos alunos da instituição. Este trabalho consiste num trabalho explicativo e de finalidade aplicada ao contexto do IFRN. A abordagem Knowledge Discovery in Database (KDD) foi utilizada como base para definição das atividades desta pesquisa, dividida aqui em três etapas: pré-produção, produção e pós-produção. A etapa de pré-produção envolveu atividades de descoberta e interpretação do problema. Nesta foi realizada uma revisão sistemática da literatura com o objetivo de identificar como a análise de aprendizagem é aplicada em ambientes de ensino brasileiros. Além disso, foi realizada a caracterização do domínio desta aplicação. Na etapa de produção foi criado um processo para extração, transformação e carregamento dinâmico dos dados do IFRN em uma base dimensional online capaz de suportar o processamento analítico de seus dados. A etapa de pós-produção envolveu atividades de avaliação e publicação dos resultados desta pesquisa. Nesta etapa foi desenvolvida a ferramenta SUAP-BI que promoveu aos docentes análises descritivas e preditivas do desempenho dos alunos, relacionando este ao contexto social dos discentes.

(7)

ABSTRACT

The Federal Institute of Education, Science and Technology of Rio Grande do Norte (IFRN) has as mission the social transformation of the region in which it operates, contributing to the economic development of the country. According to its Political-Pedagogical Project (PPP), any action related to IFRN courses must be broadly integrated. However, the heterogeneity and the high number of students in class, allied to the lack of time and tools that help the pedagogical decision-making process, corroborate with a closed curricular organization that ignores the students' social context and favors the achievement. of standardized actions. Thus, this research aims to propose an analytical process that helps the teacher to interpret their learning context from the analysis of socioeconomic and educational data of the students of the institution. This work consists of an explanatory work, and applied results to the context of the IFRN. The Knowledge Discovery in Database (KDD) approach was used as inspiration to define the activities of this research, divided here in three stages: preproduction, production and postproduction. The preproduction stage involved discovery and interpretation activities of the problem. This was a systematic review of the literature in order to identify how the learning analysis is applied in teaching environments of Brazilian institutions and characterized the domain of this proposal. In the production stage a process was created for extracting, transforming and loading IFRN data. Through this process, data from the institution's system (Public Administration Unified System, SUAP) were dynamically preprocessed and loaded onto an online dimensional basis capable of supporting the functionality of an analytical data processing system without compromising the organization's daily transactions. The post-production stage involved evaluation and evolution activities of this work. In this was developed the SUAP-BI tool that promotes teachers descriptive and predictive analysis of student performance, relating this to the social context of students.

(8)

LISTA DE FIGURAS

Figura 1 - Dimensões chaves relacionadas a um processo de Learning Analytics ... 20

Figura 2 - Pirâmide DIK (Data, Information, Knowledge) ... 22

Figura 3 - Processo de KDD ... 22

Figura 4 - Modelo relacional x dimensional... 26

Figura 5 - Esquema em estrela ... 27

Figura 6 - Esquema em floco de neve ... 27

Figura 7 - Processo de seleção... 40

Figura 8a - Análise dos critérios de inclusão ... 43

Figura 8b - Análise dos critérios de exclusão ... 43

Figura 9 - Dados mais coletados ... 45

Figura 10 - Abordagens ou tecnologias mais utilizadas na coleta de dados ... 46

Figura 11 - Abordagens ou tecnologias mais utilizadas na análise dos dados ... 47

Figura 12 - Matriz de densidade ... 50

Figura 13 – Processo Proposto ... 51

Figura 14 - Modelo dimensional proposto ... 57

Figura 15 - Gráfico de violino sobre a distribuição da renda ... 58

Figura 16 - Tratamento de qualidade e enriquecimento de dados ... 59

Figura 17 - Renda bruta familiar transformado em salário ... 60

Figura 18 - Matriz de densidade após tratamento dos dados... 60

Figura 19 - Fluxo do processamento analítico ... 61

Figura 20 -Relacionando os dados educacionais aos dados socioeconômicos dos alunos.. 62

Figura 21 - Relacionando o acesso às TICs a situação dos alunos. ... 63

(9)

Figura 23. Sumário de avaliação do melhor modelo de predição ... 67 Figura 24 - Análise preditiva de aprendizagem dos alunos numa atividade ... 68 Figura 25. Características que mais impactam o modelo de predição implementado... 69

(10)

LISTA DE QUADROS

Quadro 1 - Diferenças entre LA, EDM e AA ... 19

Quadro 2 - Comparação de técnicas de predição utilizadas ... 29

Quadro 3 - Objetivos e etapas da RSL ... 36

Quadro 4 - Strings de Busca Utilizadas ... 38

Quadro 5 - Critérios de Inclusão e Exclusão de Estudos ... 39

Quadro 6 - Atributos de extração de dados ... 42

Quadro 7 - Atributos do SUAP definidos as dimensões do DW ... 53

Quadro 8 - Análises de medidas e indicadores de desempenho educacional ... 56

(11)

LISTA DE SIGLAS TICs – Tecnologias de Informação e Comunicação LA – Learning Analytics

IFRN – Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte SUAP – Sistema Unificado de Administração Pública

LMS – Learning Management Systems SGA – Sistemas de Gestão de Aprendizagem AVA – Ambientes Virtuais de Aprendizagem BI – Business Intelligence

EDM – Educational Data Mining AA – Academic Analytics

DM – Data Mining

MD – Mineração de Dados

MDE – Mineração de Dados Educacionais

LAK – Learning Analytics and Knowledge DW – Data Warehouse

SQL – Structured Query Language

KDD – Knowledge Discovery in Database IDE – Integrated Development Environment API – Applications Programming Interface RSL – Revisão Sistemática da Literatura PROEN – Pró-Reitoria de Ensino

(12)

SUMÁRIO 1 INTRODUÇÃO ... 14 1.1 Objetivos ... 16 1.2 Organização do documento ... 16 2 FUNDAMENTAÇÃO TEÓRICA ... 17 2.1 Learning analytics ... 17

2.2 Mineração de dados educacionais ... 21

2.3 Data warehouse ... 25

2.3.1 Modelagem dimensional ... 26

2.4 Modelos preditivos ... 28

2.5 Considerações finais do capítulo ... 29

3 METODOLOGIA DE PESQUISA ... 31

3.1 Partes interessadas ... 31

3.2 Objetivos ... 31

3.3 Dados ... 32

3.4 Instrumentos e fluxo de atividades ... 32

3.4.1 Ferramentas utilizadas ... 33

3.5 Restrições ... 33

3.6 Competências ... 34

3.7 Considerações finais do capítulo ... 34

4 REVISÃO SISTEMÁTICA DA LITERATURA ... 35

4.1 Processo de revisão ... 35

4.2 Protocolo da revisão ... 37

4.2.1 Questões de pesquisa ... 37

4.2.2 Identificação dos trabalhos ... 38

4.2.3 Seleção dos estudos ... 39

4.2.4 Procedimento de decisão ... 40

4.2.5 Critérios de qualidade ... 40

4.2.6 Extração de dados ... 41

4.3 Resultados da revisão ... 42

4.3.1 Descobertas da revisão ... 43

4.4 Considerações finais do capítulo ... 47

5 PROPOSTA ... 49

(13)

5.2 Processo proposto ... 50

5.3 Desenvolvimento ... 53

5.3.1 Base dimensional ... 53

5.3.2 Servidor de extração, transformação e carregamento de dados ... 58

5.3.3 Ferramentas de visualização ... 61

5.4 Modelo de predição ... 64

5.4.1 Avaliação do modelo de predição ... 65

5.5 Considerações finais do capítulo ... 70

6 CONSIDERAÇÕES FINAIS DO TRABALHO ... 72

6.1 Produção científica ... 74

6.2 Trabalhos futuros ... 75

REFERÊNCIAS ... 76

APÊNDICE A - O SUAP ... 80

(14)

14

1 INTRODUÇÃO

O Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Norte (IFRN) é uma instituição de educação superior, básica e profissional, especializada na oferta de cursos que conjugam conhecimentos científicos e técnicos nas diferentes modalidades de ensino (IFRN, 2012).

Tomando o ano de 2018 como referência, a instituição atende a mais de 30 mil alunos e possui 1.496 professores distribuídos em 21 campi (Apodi, Caicó, Canguaretama, Ceará-Mirim, Currais Novos, Educação a Distância, Ipanguaçu, João Câmara, Lajes, Macau, Mossoró, Natal-Central, Natal-Cidade Alta, Natal-Zona Norte, Nova Cruz, Parnamirim, Pau dos Ferros, Parelhas, Santa Cruz, São Gonçalo do Amarante e São Paulo do Potengi) que oferecem ensino público de organização pluricurricular às diversas localidades do estado do Rio Grande do Norte (IFRN, 2018).

Conforme seu Projeto Político-Pedagógico (PPP), qualquer ação relacionada aos cursos do IFRN deve ser dimensionada de forma ampla e integrada. Nesta perspectiva, é preciso compreender como o conhecimento ensinado aos alunos se relaciona com seu contexto social para que haja a efetiva participação política, cultural e econômica dos discentes na sociedade em que esses fazem parte (IFRN, 2012).

Nesse PPP entende-se que o processo de construção curricular implica na unidade, continuidade e interdependência entre o que se decide a nível do plano normativo, ou oficial, e ao que é realizado a nível do plano real, ou seja, em sala de aula, durante um processo de ensino e aprendizagem (PACHECO, 1996).

Para ALMEIDA e VALENTE (2011), um currículo efetivo é aquele construído a partir do trabalho entre docentes e alunos em sala de aula. Nessa construção, ao professor é designado um papel crítico de avaliar a aprendizagem do aluno e adaptar a sua prática pedagógica aos diferentes níveis formativos, estilos cognitivos e modelos institucionais. Cabendo ao docente refletir continuamente sobre o perfil do estudante que deseja formar e como melhorar o seu processo de ensinar (SERRES, 2013).

Entretanto, a heterogeneidade e o elevado número de alunos em sala de aula, aliados a escassez de tempo e de ferramentas que auxiliem o professor a planejar adequadamente suas atividades, corroboram com uma organização curricular fechada, que ignora o contexto social dos alunos e favorece a realização de atividades padronizadas (MORÁN, 2015; ALMEIDA; VALENTE, 2011; SERRES, 2013).

(15)

15

Desta forma, neste trabalho são abordadas as seguintes questões de pesquisa:

● QP1: Como relacionar o contexto social dos alunos ao seu desempenho acadêmico?

● QP2: Que fatores sociais mais influenciam a aprendizagem dos alunos? ● QP3: Como prever o desempenho dos alunos em uma atividade avaliativa? O desenvolvimento e a integração das Tecnologias de Informação e Comunicação (TICs) ao currículo escolar propiciaram a expansão e a construção de um processo de ensino e aprendizagem mais significativo. Em consonância a isso, educadores começaram a entender como o uso de sistemas computacionais pode auxiliar a resolver os desafios do ambiente educacional (SCLATER, 2017).

Quando um aluno interage com um sistema, os dados de sua interação são dinamicamente capturados e armazenados em grandes coleções que proveem um retrato completo e contínuo das atividades do aluno e seu contexto de aprendizagem. A partir disso, os educadores podem intervir assertivamente em um processo de ensino visando sua manutenção e melhoria (traduzido de GRELLER et al., p.42-47, 2012).

Surge neste contexto o conceito de Learning Analytics (LA) - em português, Análise de Aprendizagem - que pode ser definida como a medida, coleta, análise e relato dos dados sobre os alunos e seus contextos de aprendizagem, com o objetivo de entender e otimizar o aprendizado e o ambiente que este ocorre (SIEMENS, 2011).

O processo de análise de aprendizagem está relacionado ao processamento computacional de grandes coleções de dados com objetivo de produzir ações inteligentes que contribuam com a melhoria de um processo de ensino. Com frequência, essa tecnologia é aplicada em cursos on-line como suporte ao desenvolvimento de sistemas de e-learning. Em geral, pesquisas nesta área tem como objetivo: a previsão e alerta de sucesso do aluno; a recomendação de recursos educativos; o desenvolvimento de plataformas de aprendizagem adaptativa; predição de evasão do estudante; entre outras finalidades (BAKER e YACEF, 2009; KOTSIANTIS, 2012; BAKER e INVENTADO, 2014).

Nessa perspectiva, é proposto nesta pesquisa um processo analítico que, a partir dos dados socioeconômicos e educacionais dos alunos, permita aos docentes/educadores do IFRN interpretar o contexto de aprendizagem dos seus alunos.

(16)

16

Espera-se que esse processo forneça resultados analíticos que relacionem o desempenho acadêmico do aluno a sua realidade social. Não sugerindo-se aqui que as qualidades humanas do educador sejam substituídas, mas sim que elas podem ser potencializadas por técnicas de identificação de padrões e análises estatísticas dos dados da instituição.

1.1 Objetivos

O objetivo geral desta pesquisa é propor um processo analítico que, a partir dos dados educacionais e socioeconômicos dos alunos, relacione o contexto de aprendizagem dos discentes ao seu contexto social. São objetivos específicos desta proposta:

● Realizar uma Revisão Sistemática da Literatura sobre o uso de Learning

Analytics em ambientes de aprendizagem brasileiros;

● Identificar as diferentes fontes de dados do IFRN e mapear as informações possíveis de serem analisadas;

● Entender que características pessoais e educacionais impactam o desempenho acadêmico do aluno;

● Propor um processo analítico que relacione os dados educacionais e socioeconômicos dos alunos da instituição, garantindo confiabilidade de resultados e privacidade dos usuários.

● Implementar uma ferramenta que demonstre os resultados do processo proposto, permitindo ao professor interpretar o contexto da instituição; e

● Comparar o modelo desenvolvido a outras abordagens. 1.2 Organização do documento

O presente documento está organizado conforme descrito: Capítulo 1, Introdução, apresenta a motivação, os objetivos deste trabalho; Capítulo 2 apresenta os principais conceitos e temas relacionados a esta pesquisa; Capítulo 3 apresenta a metodologia de pesquisa deste trabalho; O Capítulo 4, apresenta uma revisão sistemática da literatura relacionada a este tema de pesquisa; No Capítulo 5, é detalhado a proposta deste trabalho e como esta foi avaliada. Por fim, no capítulo 6, Considerações Finais, são apresentadas as principais considerações e conclusões desta pesquisa.

(17)

17

2 FUNDAMENTAÇÃO TEÓRICA

Considerando os objetivos deste trabalho, nesta seção é apresentada a fundamentação teórica desta pesquisa.

Na seção 2.1, são apresentados os conceitos e abordagens utilizados em Learning

Analytics. Na seção 2.2, é apresentado o processo para mineração de dados educacionais. Na

seção 2.3, são apresentados os principais conceitos relacionados ao desenvolvimento de ferramentas de OLAP, considerando suas características, arquitetura, modelagem dimensional, hierarquia e granularidade de informações. Por fim, na seção 2.4, são apresentados os principais modelos preditivos utilizados na análise de aprendizagem e como eles podem ser avaliados.

2.1 Learning analytics

A análise de grandes volumes de dados, também conhecida como Analytics, possui um papel fundamental no contexto educacional. Diversas técnicas e tecnologias foram desenvolvidas ao longo dos anos com o objetivo de explorar os dados dos sistemas educacionais, oportunizando a extração de informações úteis à tomada de decisões pedagógicas (FERGUSON, 2012).

Segundo BICHSEL et al. (2012), o termo Analytics está associado a aplicação de processos computacionais sobre grandes conjuntos de dados (Big Data1) a fim de facilitar a identificação de padrões e as tendências de um contexto de usuários. Os autores enfatizam que Analytics refere-se ao planejamento estratégico e a tomada de decisão dentro de uma organização.

Analytics permite a avaliação de ações passadas, para estimar o

potencial de ações futuras, de modo otimizar a tomada de decisões e oportunizar adoção de estratégias mais eficazes tanto para a instituição quanto para o indivíduo (BORGES, 2017, p. 47).

Desta forma, entende-se que o termo análise está relacionado a mineração de dados institucionais com o objetivo de produzir inteligência de negócio (Business Intelligence, BI). Ou seja, estratégias acionáveis baseadas no processamento analítico de dados (CAMPBELL

et al., 2007).

1 Conjunto de dados que o tamanho está além das habilidades de captura, armazenamento, gerenciamento e

(18)

18

Quando aplicado ao setor educacional, o processo de Analytics é objeto de estudo de três grandes áreas de pesquisa, são elas: Educational Data Mining (EDM), Academic

Analytics (AA) e Learning Analytics (LA) (LANG; PIRANI, 2016. DEDE; HO; MITROS,

2016).

Em linhas gerais, Educational Data Mining - em português, Mineração de Dados Educacionais - é uma área de pesquisa interdisciplinar que trabalha com o uso de Data

Mining e métodos estatísticos para explorar os dados educacionais dos alunos com o objetivo

de: Facilitar a análise e visualização de dados; Fornece feedbacks aos instrutores; Realizar recomendações aos estudantes; Prever o desempenho do aluno; Modelar perfis cognitivos de aprendizagem; Detectar comportamentos dos usuários; Agrupar alunos; e outros (ROMERO

et al., 2010).

Academic Analytics, por sua vez, é uma área de pesquisa que tem como objetivo

promover melhorias aos processos organizacionais, fluxos de trabalho, alocação de recursos, e medição dos resultados e serviços de uma instituição (BROOKS; THAYER, 2016)

Por fim, Learning Analytics, é uma área de pesquisa ainda emergente que visa a medição, coleta, análise e relato dos dados de aprendizagem dos alunos, com o objetivo de entender e otimizar o aprendizado e o ambiente que este ocorre (SIEMENS, 2011).

Análise de aprendizagem, análise acadêmica e mineração de dados educacionais são fundamentalmente parte da mesma grande área, diferenciando entre si pontos de vista sobre como abordar os problemas educacionais (SCLATER, 2017). As principais diferenças entre essas áreas são enfatizadas no Quadro 1 (BAEPLER; MURDOCH, 2010; FERGUSON, 2012; SIEMENS; LONG, 2011; VAN BARNEVELD et al., 2012).

(19)

19

Quadro 1 - Diferenças entre LA, EDM e AA

Área Objetivo Escala de análise Beneficiário

Academic Analytics Melhorar os resultados educacionais Institucional, regional, nacional, internacional Governo, Fundação, Administradores Educational Data Mining De grandes conjuntos de dados, extrair informações úteis ao processo educacional Multiescala (desde unidades de aprendizagem a internacional) Professores e Administradores

Learning Analytics Melhorar os resultados de aprendizagem dos alunos Curso, unidades de aprendizagem, departamento Professores, Administradores e alunos

Fonte: Adaptado de SIEMENS e LONG (2011)

Conforme BAKER e INVENTADO (2014), essas distinções refletem mais os pontos de vista dos pesquisadores do que diferenças filosóficas entre essas áreas.

Desta forma, neste trabalho o termo Learning Analytics é usado tanto para análise de aprendizagem, quanto para análise acadêmica e mineração de dados educacionais. Entende-se aqui que Learning Analytics é qualquer processo de coleta, análise e compreensão das informações de um processo de educação, seja esse presencial, semipresencial ou a distância; a fim de proporcionar para as partes envolvidas, de forma direta (estudantes, professores, tutores, etc) ou indireta (instituições de ensino, comunidade científica, etc.) a percepção de fatores capazes de influenciar positivamente ou negativamente um contexto de ensino.

Com o objetivo de descrever os requisitos críticos que tornam eficaz um processo de LA, GRELLER et al. (2012) definiram seis dimensões a serem consideradas, são elas: Partes Interessadas (em inglês, stakeholders), Objetivos, Dados, Instrumentos/Técnicas, Limitações Internas ou Competências e Limitações Externas ou Restrições, conforme ilustrado na Figura 1.

(20)

20

Figura 1 - Dimensões chaves relacionadas a um processo de Learning Analytics

Fonte: Adaptado de GRELLER et al. (2012)

Para GRELLER et al. (2012), para cada dimensão, o pesquisador/educador deve definir:

● Partes Interessadas: Inclui os sujeitos e os clientes dos dados. Os clientes são os beneficiários do processo, são aqueles que se utilizam dos resultados da análise para agir sobre um contexto de aprendizagem (por exemplo, alunos, professores, administradores e desenvolvedores). Já os sujeitos são aqueles que fornecem os dados a serem analisados. Sendo esses dados geralmente extraídos por meio de interações dos alunos com um sistema educacional.

● Dados: Refere-se a origem/fonte dos dados utilizados no processo de análise. Comumente, processos de LA dependem de dados extraídos e armazenados através de sistemas educacionais. Um dos grandes desafios dessa área de pesquisa diz respeito a disponibilidade desses dados que, em geral, são protegidos pelas instituições de ensino.

● Objetivos: Refere-se aos objetivos de um processo de análise de aprendizagem, podendo este ser aplicado para reflexão ou predição.

o Sendo reflexão quando o processo tem como objetivo analisar os dados dos estudantes para reestruturar as bases de um curso visando a admissão de novos alunos; e

(21)

21

preditivo, prevê o comportamento do estudante e intervenções pedagógicas são adotadas visando a otimizar o contexto analisado, em curso.

● Instrumentos: Relaciona-se com as diferentes tecnologias utilizadas num processo de análise de aprendizagem, tais como: mineração de dados educacionais, aprendizado de máquina, métodos estatísticos, análise de redes sociais etc.

● Competências: Refere-se às limitações internas dos clientes, ou seja, como os beneficiários de um processo de análise podem interpretar as informações resultantes da análise e que ações eles podem tomar a partir disso.

● Restrições: Refere-se a questões de privacidade e ética relacionadas ao uso dos dados dos alunos.

Em síntese, os autores evidenciam como as pesquisas LA podem se utilizar de dados heterogêneos, em diferentes formatos, e atender a inúmeros objetivos e stakeholders. A seguir, é abordado como o corre o processo de mineração e extração de informações.

2.2 Mineração de dados educacionais

O processo de mineração de dados educacionais (MDE) tem como objetivo converter os dados brutos provenientes de um sistema de ensino em informações úteis, que impactem positivamente o contexto de aprendizagem do usuário. Tal conversão é possível por meio de um processo de mineração (MD) tradicionalmente realizado sobre os dados de uma organização (PEÑA-AYALA, 2014; ROMERO et al., 2017).

Em linhas gerais, um processo de MDE possui as mesmas etapas de um processo de MD convencional. Entretanto, os processos de MDE podem sofrer variações da abordagem tradicional em razão das particularidades do contexto educacional (BORGES, 2017).

Entre os processos de MD, o modelo de Extração de Conhecimento de Bases de Dados (em inglês, Knowledge-Discovery in Databases - KDD) é um dos mais utilizados por pesquisadores dessa área (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

No KDD os dados são a matéria prima do processo de mineração. No momento em que o usuário atribui algum significado a esses dados, eles são convertidos em informações úteis sobre o contexto do usuário que, por sua vez, transforma essas informações em um conhecimento ou ação inteligente passível de ser realizada no contexto analisado (FAYYAD, PIATETSKY-SHAPIRO e SMYTH, 1996).

(22)

22

O principal objetivo do KDD é apoiar os especialistas de um domínio a extrair os conhecimentos existentes de numa base de dados, conforme ilustrado na Figura 2.

Figura 2 - Pirâmide DIK (Data, Information, Knowledge)

Fonte: Adaptado de BELLINGER et al. (2013)

Para FAYYAD et al. (1996), o processo de mineração possui várias etapas que variam desde a definição e compreensão do domínio do negócio, até a descoberta de um conhecimento sobre os dados armazenados (ver Figura 3).

Figura 3 - Processo de KDD

Fonte: Adaptado de FAYYAD et al. (1996)

Conforme esses autores, as etapas de um processo analítico devem ser executadas conforme seguinte sequência de atividades:

1. Definição e compreensão do domínio: tem como objetivo a definição dos aspectos fundamentais a serem considerados para o êxito do processo de análise. Essa definição é realizada pelos especialistas do domínio ou proprietários da base

(23)

23

de dados com o apoio do especialista do processo de KDD, a fim de definir o domínio da aplicação (escopo da aplicação). Uma análise cuidadosa do problema é requerida nesta etapa para uma melhor compreensão do domínio. Os principais fatores a ser considerados são: Quais são as metas do trabalho? Quais critérios são mais importantes? Quais os gargalos do domínio? Onde é melhor automatizar o processo de análise de dados e onde é melhor deixar para ser processado manualmente? O produto do processo analítico usará classificação, visualização ou exploração? Qual a relação entre simplicidade e precisão de um conhecimento extraído? O que se deseja obter a partir dos resultados? O produto dessa interação deve ser uma documentação completa do domínio, devendo constar a descrição das características da aplicação, definição dos objetivos, agenda de atividades, entre outros.

2. Seleção e/ou criação das bases de dados: consiste em selecionar ou criar uma nova base de dados usando um conjunto de elementos de várias fontes de dados. Isto envolve considerações de homogeneidade dos dados e identificação das fontes de origem dessas informações.

3. Compreensão dos dados: consiste em interpretar os dados para melhor entendimento do domínio. Possíveis artefatos desenvolvidos nesta etapa: consultas usando a linguagem SQL (Structured Query Language), ferramentas OLAP (On-Line Analytical Processing), representações gráficas, visualização dos dados, cálculos estatísticos etc.

4. Seleção de Amostragem: consiste na seleção das amostras mais representativas de uma base de dados. A escolha de uma amostra que reflita com maior fidelidade possível à base de dados é de suma importância paras as demais etapas do processo KDD, pois a seleção de amostras pouco significativas pode resultar em padrões imprecisos ou sem valia, tais como: tamanho da amostra; estratégias para obtenção da amostra; homogeneidade dos dados; dinâmica de valores (por exemplo, como eles mudam no tempo).

5. Enriquecimento do conjunto de dados selecionados: Nesta etapa são agregados dados cujo a coleção selecionada inicialmente não apresenta. A partir da amostragem inicial, são criados valores que enriquecem o processo de análise. (por exemplo: a partir da data de nascimento de um usuário, identificar sua idade).

(24)

24

6. Limpeza do conjunto de dados: esta etapa inclui, principalmente, a padronização e eliminação de ruídos gerados de diversas formas nos conjuntos de dados. Os principais fatores a ser considerados são: padronização do conteúdo dos registros; análise de valores desconhecidos para determinar se é melhor eliminar os registros que contêm dado ou se é possível utilizar alguma técnica para preenchimento de valores ausentes; eliminação de registros duplicados; tratamento de ruídos nos dados; estabelecer limites aos dados (exemplo: nota mínima, máxima, etc).

7. Preparação do conjunto de dados: em alguns processos, faz-se necessária a adequação no conjunto de dados de acordo com a técnica de mineração utilizada. Alguns aspectos a serem considerados na preparação dos dados são: simplificação dos valores (exemplo: faixa etária, faixa renda bruta; etc.); agrupamento de valores contínuos; normalização dos dados (exemplo: binarização dos dados, criação de escalas); colocação do atributo-classe utilizado nos algoritmos simbólicos de aprendizagem de máquina; redistribuição dos valores.

8. Mineração de Dados: devido a sua complexidade, esta etapa pode ser dividida em três sub etapas:

a. redução de instâncias e/ou atributos, tal como decidir trabalhar apenas com instâncias positivas; ou somente com atributos são altamente correlacionados ao resultado; etc.

b. descoberta de padrões: uso de técnicas de aprendizado de máquina a fim de encontrar padrões, modelos ou classificações dentro de um conjunto de dados);

c. pré-avaliação do conhecimento obtido: objetiva fazer uma filtragem, eliminando o conhecimento obtido que não representa valor nenhum e situações óbvias guiadas pelo senso comum. Nesta sub etapa, a precisão do algoritmo de aprendizado de máquina é testada, assim como sua representação. É criado um modelo que transmite o conhecimento da forma mais simples possível ao usuário.

9. Avaliação do conhecimento descoberto: O processo KDD não termina quando os padrões dos dados de entrada são descobertos. É preciso avaliar a utilidade do conhecimento extraído. A avaliação do modelo é uma envolve, entre outras

(25)

25

coisas, a utilização de técnicas de visualização para auxiliar o especialista a decidir a importância e utilidade do conhecimento extraído.

10. Consolidação e utilização do conhecimento extraído: A consolidação do conhecimento extraído pressupõe a verificação e solução de potenciais conflitos com o conhecimento existente antes do KDD.

É importante destacar que os dados de uma instituição de ensino são dinâmicos. Sendo assim, sofrem constantemente mudanças ao longo de um processo educativo. Visando garantir a correta extração de dados e descoberta significativa de informações, o processo de KDD deve também ser executado periodicamente sobre o contexto atualizado do usuário.

A fim de garantir a eficiência da mineração de dados, é extremamente recomendado a incorporação de um elemento de Data Warehouse (DW) responsável por integrar, transformar e carregar os dados do contexto do usuário (BORGES, 2017). A seguir é apresentado os principais conceitos e abordagens utilizadas na construção de um DW. 2.3 Data warehouse

Segundo INMON et al. (2010), um DW é um repositório de dados orientado por assunto, conciso, integrado e variável com o tempo. O principal objetivo desse repositório é dar suporte a execução de vários processos analíticos sem comprometer os sistemas transacionais (OLTP) de uma organização.

Enquanto os sistemas transacionais possuem uma base para gerenciar os processos diários da organização (registro de aulas, matrículas, cadastro de usuários, etc), um sistema de processamento analítico de dados (OLAP) possui uma base DW que suporta a extração e descoberta dinâmica de conhecimentos sobre a organização (dashboards de avaliação dos indicadores de desempenho, mineração de dados, etc). Em um DW a informação de uma base relacional é previamente extraída, traduzida, filtrada e integrada ao que é relevante a um processo de tomada de decisão (CIFERRI, 2002).

Diferente das bases relacionais, um DW é uma base dimensional. Nele são mantidos os diversos fatos (conjunto de dados representado por valores numéricos agrupados a partir dos eventos do negócio) e dimensões (conteúdos descritivos que classificam os elementos de um fato) da empresa (BORGES, 2017).

(26)

26

Figura 4 - Modelo relacional x dimensional

Fonte: BRAGHITTONI (2017)

A Figura 4 ilustra a diferença entre um modelo de banco de dados relacional e um modelo dimensional. Diferente de um modelo relacional, que é composto de tabelas de entidades e seus relacionamentos normalizados, um modelo de dados dimensional não há, a princípio, a normalização dos dados (BORGES, 2018). Por exemplo, para um sistema analítico de vendas, é possível agregar em uma tabela de fatos as medidas numéricas que demonstram a evolução das vendas da empresa em relação ao perfil dos seus clientes, produtos e funcionários.

2.3.1 Modelagem Dimensional

Para implantar um sistema de Data Warehouse existem regras de design e boas prática que auxiliam a construção de um bom esquema de informação. Dentre as regras de

design mais utilizadas, destacam-se os modelos Floco de Neve e Estrela.

Conforme BRAGHITTONI (2017), no Modelo Estrela as tabelas de dimensão são diretamente relacionadas às tabelas de fato da aplicação. Não existe normalização de informações e as consultas são respondidas da maneira mais rápida.

(27)

27

Figura 5 - Esquema em estrela

Fonte: BRAGHITTONI (2017)

Já no esquema Floco de Neve os fatos e dimensões são organizados em tabelas que dividem os dados em diferentes hierarquias de informação. Neste modelo as dimensões podem possuir algum nível de normalização, gerando relacionamentos entre as tabelas das dimensões, conforme ilustrado na Figura 6 (BRAGHITTONI, 2017).

Figura 6 - Esquema em floco de neve

Fonte: BRAGHITTONI (2017)

A escolha por um esquema ou outro está diretamente relacionada ao objetivo do trabalho (e, consequentemente, custo) de implantação. Sendo a modelo estrela o mais performático já que evita sub consultas ou junções.

Uma vez criado, os dados de um DW podem ser rapidamente acessados e processados visando a mineração, visualização, classificação ou predição de algum tipo de informação. A seguir são apresentadas as principais técnicas de mineração utilizadas em LA visando a predição de desempenho do aluno.

(28)

28

2.4 Modelos Preditivos

Ao longo dos anos diferentes técnicas foram desenvolvidas visando o contínuo melhoramento dos processos de LA. Através de um mapeamento sistemático de 91 artigos publicados na conferência LAK (Learning Analytics and Knowledge). Nessa pesquisa, os autores destacaram as técnicas de mineração de dados como sendo as mais utilizadas entre os pesquisadores, seguidas, por métodos matemáticos e estatísticos de dados (KHALIL; EBNER, 2016).

Quando aplicadas à predição do desempenho de aprendizagem dos alunos, as técnicas estatísticas e de mineração de dados tem como objetivo estimar o valor de uma variável dependente a partir de um conjunto de dados independentes. Na educação o valor dessas variáveis (dependentes e independentes) podem ser de tipo numérico ou categórico (SCLATER, 2017).

Para valores categóricos, geralmente, são utilizadas modelos de classificação, em que itens de uma base são agrupados a partir da similaridade das informações. Nestes casos, podem ser utilizadas modelos de Regressão Logística2, Árvore de Decisão3, Random Forest4, para prever o valor de uma variável dependente categórica.

Já para a predição de valores numéricos são utilizadas técnicas de regressão linear5 (BARROS et al., 2018). Nesta perspectiva, BARROS et al. (2018) fez um levantamento das técnicas mais utilizadas na comunidade científica para predição de desempenho/evasão dos alunos. Os resultados desse levantamento são apresentados na Quadro 2.

2 https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html 3 https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html 4 https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestClassifier.html 5 https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

(29)

29

Quadro 2 - Comparação de técnicas de predição utilizadas

Referência Objetivo do Trabalho Dados Modelo Preditivo

HUANG e FAN, 2013

Predição de Desempenho

Notas Multiple Linear Regression, Multilayer Perception Network, Radial Basis Function Network, and Support Vector Machine

ROVIRAT A et al., 2017 Predição de Desempenho e Evasão

Notas Logistic Regression, Gaussian Naive Bayer, SVM, Random

Forest, Adaptive Boosting, Predict performance, Collaborative Filtering, Recommendation System, Linear

Regression, Support Vector Regression

BURGOS et

al., 2017

Predição de Evasão

Notas Regression Logistic

LI et al., 2013

Predição de Desempenho

Notas Principal Component Analysis

XU et al., 2017 Predição de Desempenho Notas e Dados demográficos Probabilistic Matrix Factorization Algorithm MEIRE et al., 2015 Predição de Desempenho

Notas Algoritmo próprio utilizando cálculo de semelhança e

Regressão Fonte: BARROS et al. (2018)

Como apresentado no Quadro 2, entre as técnicas mais utilizadas para predição do desempenho do aluno estão os modelos de regressão e os modelos de classificação de dados. A diferença entre esses modelos reside nos pressupostos de suas respectivas aplicações. Em um modelo de regressão linear a variável dependente é do tipo quantitativa, podendo ela assumir valores racionais e contínuos. Já em um modelo de classificação a variável dependente é qualitativa, ou seja, ela pode assumir valores de classes discretas, mutuamente exclusivas (GRUS, 2018).

2.5 Considerações finais do capítulo

Analisando os diferentes trabalhos, conclui-se que a análise de aprendizagem é um campo de pesquisa amplo com raízes em uma variedade de campos.

(30)

30

Neste capítulo foram apresentados conceitos referentes a área de LA; Mineração de Dados Educacionais; Modelagem Dimensional; e Modelos Preditivos. Conforme descrito neste, quando definido, um processo de análise de aprendizagem deve definir claramente seus objetivos, partes interessadas, fonte de dados, instrumentos a serem utilizados e os resultados que se deseja alcançar.

No próximo capítulo é apresentada a metodologia adotada nesta pesquisa, com destaque ao que é definido no modelo de 6 dimensões proposto por GRELLER et al. (2012).

(31)

31

3 METODOLOGIA DE PESQUISA

Este trabalho consiste numa pesquisa de finalidade aplicada, objetivo explicativo e abordagem quantitativa, conforme definido em WAZLAWIVK (2017).

Esta é de finalidade aplicada pois os conhecimentos aqui adquiridos são utilizados para aplicação prática de soluções a um problema concreto da vida moderna. Especificamente, ao problema da falta de ferramentas analíticas que apoiem a tomada de decisão docente no contexto do IFRN. Seu objetivo é explicativo pois, durante realização das atividades, é feito o registro, análise e interpretação dos fenômenos aqui estudados.

Conforme descrito na seção 2.1, para análise dos dados do IFRN foi utilizado o modelo de 6 dimensões proposto por GRELLER et al. (2012), conforme descrito nas seções a seguir.

3.1 Partes interessadas

Os sujeitos desta pesquisa são os alunos do IFRN e seus beneficiários se dividem em duas categorias: 1. Beneficiários diretos; 2. Beneficiários indiretos.

Os beneficiários diretos são os professores do IFRN. Espera-se que o processo proposto possa auxiliá-los na construção de um currículo efetivo, baseado no monitoramento e diagnóstico dos fatores de aprendizagem passíveis de impactar a realização de atividades pedagógicas.

Os beneficiários indiretos são os alunos, o IFRN e demais pesquisadores. Espera-se que o processo proposto contribua com um ambiente de aprendizagem mais significativo aos discentes; além disso, que o processo de tomada decisão institucional seja fundamentado através dos dados educacionais dos alunos, contribuindo assim com um processo contínuo de melhoria das práticas educativas do instituto; por fim, espera-se que, por meio da divulgação dos resultados obtidos neste trabalho, outros pesquisadores possam aplicar variações desta abordagem em suas respectivas pesquisas.

3.2 Objetivos

Os objetivos do processo de LA adotado neste trabalho são do tipo de predição. Neste é proposto a aplicação de LA direcionada à predição do desempenho de aprendizagem dos alunos do IFRN, relacionando seus dados educacionais a situação social dos discentes. Espera-se que, a partir dessa análise, os educadores possam refletir melhor sobre sua prática pedagógica e relacionar o desempenho dos alunos as suas condições socioeconômicas.

(32)

32

3.3 Dados

Inicialmente foi solicitado ao setor da DIGTI/IFRN uma amostragem dos dados educacionais e socioeconômicos dos alunos dos cursos técnicos integrados da instituição, a fim de compreender que atributos são armazenados pelo sistema SUAP e como estes se relacionam com o desempenho acadêmico dos alunos da instituição.

Essa amostragem foi extraída através de consultas SQL (Structured Query Language) aplicadas a base transacional do sistema SUAP, em janeiro de 2018. Os dados dessa amostragem foram fornecidos no formato json, conforme estrutura apresentada no Apêndice B deste trabalho.

Ao total, a amostragem extraída conteve dados relacionados a 22 unidades organizacionais, 37 cursos integrados, 20.778 alunos, 1.015 disciplinas, 3.100.813 atividades da instituição. Sendo composta de 91 atributos relacionados ao perfil socioeconômico, demográfico e educacional dos alunos do IFRN.

Para efeitos de desenvolvimento e avaliação desta proposta, foram extraídos os dados de 2 unidades organizacionais, 6 cursos integrados, 980 alunos presenciais, 153 disciplinas e 190.126 atividades da amostragem original.

A partir desses, 75% dos dados foram utilizados para treinamento do modelo de predição. Os demais 25% foram utilizados para efeitos de testes e experimentação do processo analítico proposto.

3.4 Instrumentos e Fluxo de Atividades

Baseando-se no KDD, este trabalho foi desenvolvido conforme seguinte fluxo de atividades:

1. Caracterizar o cenário atual do IFRN, identificando o(s) problema(s) possível(is) de ser resolvido(s) pela análise de aprendizagem; e

2. Realizar levantamento dos dados de origem, identificando fonte, qualidade, hierarquia e significado das informações;

3. Identificar os requisitos e necessidades desta proposta;

4. Criar uma base multidimensional para agregar e distribuir os dados da instituição, considerando a viabilidade financeira da organização e a necessidade de profissionais capacitados para a sua manutenção, implantação e atualização; 5. Implementar os componentes para extração, transformação e carregamento

(33)

33

6. Criar um modelo analítico que que relacione os indicadores de desempenho de uma turma aos dados (acadêmicos e socioeconômico) dos alunos;

7. Criar um modelo preditivo que, baseando-se nos dados educacionais e socioeconômicos dos alunos e na configuração de uma atividade, preveja quantos integrantes de uma turma ficarão com nota igual ou superior a 60.

8. Avaliar o modelo preditivo criado comparando-o com outras abordagens do mercado.

3.4.1 Ferramentas utilizadas

A linguagem de programação Python (versão 3.6) foi utilizada para o desenvolvimento e para a avaliação desta proposta. Essa linguagem foi escolhida por já ser adotada pelas equipes de desenvolvimento do IFRN e, além disso, por possuir inúmeras bibliotecas que auxiliam à seleção, pré-processamento, transformação, mineração, análise e visualização/interpretação de informações, tais como: scikit-learn (para utilização de modelos de aprendizado supervisionado clássicos); folium e missingno (para geração de gráficos); panda e numpy (para manipulação, leitura e visualização dos dados);

GridsearchCV e RFECV (para seleção das características/atributos do modelo proposto)

Uma API (Applications Programming Interface) foi utilizada para gerenciar o acesso remoto aos dados da fonte do sistema SUAP/IFRN.

O Power BI6 foi utilizado para estudos de visualização dos dados complexos da instituição. Esta ferramenta foi escolhida inicialmente por permitir a importação, edição e modelação de dados, bem como a criação de relatórios, dashboards de visualização e o compartilhamento de resultados na internet, de forma que qualquer pessoa possa consultá-los de qualquer computador, tablet ou smartphone.

3.5 Restrições

Esta dimensão está relacionada com as questões éticas, morais e legais dos dados institucionais analisados, de forma que as informações dos alunos sejam protegidas e asseguradas. Para garantir a privacidade dos alunos e a integridade legal e ética dos processos de análise executados sobre os dados, foi definido um termo de compromisso em que o pesquisador se compromete a:

(34)

34

● Não utilizar os dados institucionais em benefício próprio e/ou unilateral, presente ou futuro, ou de terceiros não autorizados previamente pelo setor responsável; ● Não utilizar os dados para fins comerciais ou para quaisquer outros fins não

autorizados previamente pelo setor responsável;

● Não tratar os dados confidenciais dos alunos de forma nominal;

● Não repassar os dados institucionais, ou quaisquer informações confidenciais neles contidos, para outrem.

Entende-se neste que todo “dado confidencial” está relacionado às informações pessoais dos usuários do SUAP, tais como: nome, CPF, RG, contato, endereço residencial, matrícula, nome de pai e mãe, dentro outros.

3.6 Competências

Esta dimensão compreende as habilidades e limitações internas dos clientes para que as informações sejam corretamente compreendidas e possam promover intervenções que representem melhorias ao contexto de aprendizagem analisado.

A análise correta dos dados e a extração das informações é de responsabilidade dos autores desta pesquisa. Uma vez compartilhados os resultados deste trabalho, os educadores poderão utilizá-los durante a elaboração de suas atividades pedagógicas. Cabe ao educador interpretar as informações analisadas e decidir como agir diante esses resultados.

3.7 Considerações finais do capítulo

Neste capítulo foi apresentada a metodologia adotada nesta pesquisa, assim como os principais requisitos que conduziram o desenvolvimento deste trabalho, conforme definido no modelo de 6 dimensões proposto por GRELLER et al. (2012).

A fim de compreender a evolução desse campo de pesquisa no Brasil e entender como os pesquisadores brasileiros têm aplicado o processo de análise de aprendizagem em suas instituições de ensino, é apresentado no capítulo seguinte os resultados de uma revisão sistemática da literatura realizada em março de 2017.

(35)

35

4 REVISÃO SISTEMÁTICA DA LITERATURA

Análise de Aprendizagem é uma área de pesquisa em Tecnologias de Suporte à Educação que cresce rapidamente. Visando identificar como essa área tem se desenvolvido nacionalmente, este capítulo apresenta os resultados de uma Revisão Sistemática da Literatura (RSL) sobre os estudos que abordam/relatam o uso de Análise de Aprendizagem em instituições de ensino brasileira.

Neste trabalho, esta revisão teve como objetivo identificar como os pesquisadores brasileiros têm solucionado os desafios atrelados a execução de um processo de análise de aprendizagem em ambientes de ensino nacionais.

Ao total foram identificados 321 trabalhos relacionados automaticamente pelos motores de busca da SCOPUS7 e da Comissão Especial da Informática na Educação (CEIE8). Dos trabalhos identificados, 300 foram rejeitados a partir da aplicação dos critérios de inclusão e exclusão e avaliação de qualidade; 21 foram selecionados para análise de seleção inicial e final desta revisão. Dos 21 trabalhos selecionados, foi verificado que: 2 trabalhos são duplicados; e 2 trabalhos não possuem o texto disponível na web. Dessa forma, foram extraídos os dados de 17 trabalhos, que auxiliaram a embasar as descobertas e discussões desta pesquisa.

4.1 Processo de revisão

Segundo de KITCHENHAM e CHARTERS, uma RSL emprega um processo metódico para identificar, avaliar e interpretar as evidências científicas disponíveis e relevantes relacionadas a um tema específico de pesquisa. A condução desse método é realizada a partir de um processo bem definido que envolve a execução de três etapas: Planejamento; Condução; e Publicação de Resultados (Quadro 3).

7 https://www.elsevier.com/pt-br/solutions/scopus 8 https://www.br-ie.org/pub/index.php/index

(36)

36

Quadro 3 - Objetivos e etapas da RSL

Etapa Objetivos Resumo de Atividades

Planejamento Definir o objetivo e planejar a Revisão Sistemática

Identificar a necessidade da Revisão Sistemática;

Definir os objetivos da pesquisa; Criar o protocolo (planejar a RSL);

Condução

(Identificação, seleção de estudos e extração de dados)

Executar o planejamento feito no protocolo, buscar estudos primários e selecionar os estudos a serem sintetizados

Executar as strings de busca nas máquinas de busca selecionadas; Selecionar os estudos primários de

acordo com os critérios de inclusão e exclusão;

Extrair informações dos estudos primários selecionados;

Publicação dos Resultados

Sintetizar os estudos primários que atendem ao propósito da revisão

Sintetizar as informações extraídas dos estudos primários;

Publicar os resultados (relatório técnico ou artigos)

Fonte: Adaptado de KITCHENHAM e CHARTERS (2007)

O protocolo usado para realizar esta RSL foi baseado no trabalho de KITCHENHAM e CHARTERS (2007). A principal diferença entre o método aqui utilizado e o originalmente relatado é que, ao invés de utilizar um processo de busca manual, foi utilizada uma busca automatizada para identificação dos trabalhos candidatos.

Na etapa de planejamento foi identificada que, embora LA seja uma área de pesquisa em ascensão, não há estudos secundários/terciários que analisem como os pesquisadores têm abordado essa tecnologia em ambientes de ensino brasileiros. A partir disso, foi criado o protocolo utilizado para a condução desta revisão.

Segundo KITCHENHAM e CHARTERS (2007), o protocolo de revisão é um documento que visa minimizar os vieses que podem ser cometidos pelos pesquisadores durante a execução de uma RSL. Nesta pesquisa, esse foi definido previamente com o objetivo de tornar os resultados desta revisão mais confiáveis e possíveis de reprodução.

(37)

37

Na etapa de condução foram executadas as estratégias e processos planejados no protocolo de revisão. Nesta etapa, foram utilizadas as bases bibliográficas SCOPUS e CEIE para identificação dos estudos relacionados ao objeto previamente definido.

A base SCOPUS foi selecionada por ser a maior base multidisciplinar de citações e resumos de literatura revisada por pares (periódicos, livros e conferências), segundo dados da ELSEVIER (2018). Já a base CEIE (Comissão Especial de Informática na Educação) foi escolhida por reunir trabalhos de eventos nacionais relacionados especificamente a área de informática na educação, tais como: RBIE (Revista Brasileira de Informática na Educação), SBIE (Simpósio Brasileiro de Informática na Educação), WIE (Workshop de Informática na Escola), WCBIE (Workshops do Congresso Brasileiro de Informática na Educação), JAIE (Jornada de Atualização em Informática em Educação) e DesafiE.

Ainda na etapa de condução, foi dado início ao processo de seleção dos estudos candidatos. Nesta, por meio da aplicação dos critérios de seleção (inclusão e exclusão) e avaliação de qualidade, 17 estudos foram selecionados. Os dados desses estudos foram extraídos e sintetizados de modo a facilitar a sumarização dos resultados encontrados. 4.2 Protocolo da revisão

Nesta seção são apresentados os critérios e estratégias utilizados na realização desta revisão sistemática.

4.2.1 Questões de pesquisa

Esta revisão teve como questão central de pesquisa a seguinte pergunta: Como a análise de aprendizagem tem sido aplicada em ambientes de aprendizagem brasileiros? Para responder esse questionamento, foram definidas as seguintes questões secundárias:

● QP1: Que objetivos relacionados a análise de aprendizagem são abordados? ● QP2: Que instituições de ensino/pesquisa se utiliza de análise de aprendizagem? ● QP3: Quais dados são os mais explorados nas atividades de coleta?

● QP4: Que abordagens/tecnologias de coleta de dados são as mais aplicadas? ● QP5: Que abordagens/tecnologias de análise são as mais aplicadas?

● QP6: Os estudos apresentam resultados positivos as abordagens de análise de aprendizagem propostas?

● QP7: Que ambientes virtuais de aprendizagem se têm utilizado na análise de aprendizagem?

(38)

38

4.2.2 Identificação dos trabalhos

A identificação dos trabalhos foi realizada por meio de buscas automatizadas nos sistemas SCOPUS e CEIE. Todas as pesquisas foram baseadas: no título, palavras-chave e resumo dos trabalhos. As buscas ocorreram entre março e abril de 2018 e para todas as fontes foi utilizado um mesmo conjunto de strings que resultou numa relação de trabalhos candidatos, conforme Quadro 4.

Quadro 4 - Strings de Busca Utilizadas

ID Fonte String Resultado

S01 SCOPUS ("learning analytic” OR “learning analytics” OR “learning data mining” OR “educational data mining” OR “academic data mining”) AND ("virtual learning environment” OR “learning management system")

311

S02 SCOPUS (“análise de aprendizagem” OR “mineração de dados educacionais” OR “mineração de dados acadêmicos” OR “mineração de dados escolares” OR “mineração de dados de aprendizagem”) AND (“ambiente virtual de aprendizagem” OR “ambientes virtuais de aprendizagem”)

0

S03 CEIE ("análise de aprendizagem" OR "mineração de dados educacionais" OR "mineração de dados acadêmicos" OR "mineração de dados escolares" OR "mineração de dados de aprendizagem") AND ("ambiente virtual de aprendizagem" OR "ambientes virtuais de aprendizagem")

8

S04 CEIE ("learning analytic" OR "learning analytics" OR "learning data mining" OR "educational data mining" OR "academic data mining") AND ("virtual learning environment" OR "learning management system")

2

Fonte: autoria própria (2019)

Uma vez que a estratégia de busca adotada resultou trabalhos tanto da base SCOPUS quanto da base CEIE, foi utilizada a ferramenta Start9, para gerenciar e controlar análise dos

estudos identificados. Todos os trabalhos foram registrados na ferramenta de forma manual e automática a partir da importação de arquivos de referência no formato BibTex10.

9 http://lapes.dc.ufscar.br/tools/start_tool 10 http://www.bibtex.org/

(39)

39

4.2.3 Seleção dos estudos

A busca automatizada identificou 321 estudos (311 estudos da base SCOPUS; e 10 estudos na base CEIE) que foram selecionados a partir de 3 fases: 1. Pré-Seleção, 2. Seleção Inicial e 3. Seleção Final. Em cada uma delas, os trabalhos identificados foram submetidos à análise dos critérios de inclusão e exclusão previamente definidos (Quadro 5).

Quadro 5 - Critérios de Inclusão e Exclusão de Estudos

Critérios de Inclusão Critérios de Exclusão

I1. Artigos publicados de janeiro/2012 a abril/2018; e

I2. Artigos em português ou inglês; e I3. Artigos que propõem/relatam um processo, ferramenta, arquitetura ou diretriz para análise de dados de sistemas de apoio tecnológico ao ensino.

E1. Estudos que não atendem os critérios de inclusão; ou

E2. Estudos não afiliados a instituições brasileiras de ensino e ou pesquisa; ou E3. Estudos duplicados; ou

E4. Estudos sem resumo; ou

E5. Estudos que não são primários; ou E6. Estudos que não foi possível acessar o texto na íntegra; ou

E7. Estudos que não são artigos de revista/evento científico.

Fonte: autoria própria (2019)

Na pré-seleção, os estudos identificados foram relacionados e, a partir do tipo do estudo, afiliação dos autores, ano de publicação e idioma do texto, analisados. Os estudos que atenderam os critérios de inclusão e exclusão da revisão, foram passados para a próxima fase de seleção, seleção inicial. Nesta fase os critérios de inclusão e exclusão foram novamente avaliados nos trabalhos remanescentes, sendo agora lidos também o título, resumo e palavras-chave dos estudos. Passando para a próxima fase aqueles que atenderam os critérios de inclusão e exclusão. Na última fase, seleção final, mais uma vez foram avaliados os critérios de inclusão e de exclusão, sendo lidas também as seções de introdução e conclusão dos trabalhos.

(40)

40

Figura 7 - Processo de seleção

Fonte: autoria própria (2019)

Ao final de cada etapa de seleção, foi realizada uma revisão dos estudos aceitos garantindo assim a confiabilidade e reprodutibilidade desta revisão, conforme ilustrado na Figura 7.

4.2.4 Procedimento de decisão

A partir da relação dos estudos candidatos, dois pesquisadores (R1 e R2) avaliaram individualmente cada um dos trabalhos, avaliando como “aceito” ou “rejeitado” os estudos analisados. Cada pesquisador avaliou todos os trabalhos de forma independente e individual, garantindo assim a confiabilidade do processo de seleção. No caso de dúvida, o pesquisador, a princípio, marcava o estudo como aceito e assinalava como obrigatória a sua reavaliação.

Em seguida, em um quadro de seleção geral, foram relacionados os estudos avaliados por R1 e R2. As discordâncias apresentadas, são solucionadas de forma colaborativa e consensual, através de reavaliações as análises realizadas.

Por fim, todos os trabalhos aceitos foram relacionados numa lista final de estudos aceitos. Finalizando esse procedimento, cada trabalho relacionado foi lido na íntegra e a ele foram aplicados os critérios de qualidade pré-definidos.

4.2.5 Critérios de qualidade

Os critérios de qualidade de uma RSL têm como objetivo avaliar os aspectos metodológicos de um trabalho (NAKAGAWA, 2017). Através deles é possível considerar

(41)

41

os aspectos de relevância do tema do trabalho e o uso dos métodos que conduzam aos objetivos propostos.

Para esta revisão foram definidas 5 (cinco) questões para avaliação da qualidade dos trabalhos, conforme relacionadas a seguir:

● QA1: O estudo apresenta algum método, técnica ou ferramenta existente no mercado para auxiliar na sua abordagem?

● QA2: O estudo apresenta objetivos e/ou questões de pesquisa bem definidos e embasados pela literatura?

● QA3: O estudo avaliado apresenta algum tipo de experimento controlado ou estudo de caso para avaliação da abordagem proposta?

● QA4: O estudo avaliado apresenta uma breve comparação dos seus resultados com resultados de outros trabalhos relacionados?

● QA5: O estudo avaliado apresenta resultados extraídos de um contexto real de ensino?

Conforme o procedimento previsto em KITCHENHAM et al. (2010), para cada uma das questões, foi possível uma das seguintes pontuações: 1 (Sim, o estudo apresenta); 0.5 (O estudo apresenta parcialmente); e 0 (Não, o estudo não apresenta). Ao final da avaliação, a pontuação dos estudos foi calculada por adição aritmética das respostas. Os artigos com pontuação igual a 0 (zero) foram rejeitados e eliminados da etapa de extração de dados. 4.2.6 Extração de Dados

Visando responder as questões desta pesquisa, foram definidos os seguintes atributos para extração de dados (Quadro 6).

(42)

42

Quadro 6 - Atributos de extração de dados

Atributo Tipo de Dado Questões de Pesquisa

Título do trabalho. Texto QP2: Que instituições de

ensino/pesquisa se utiliza de análise de aprendizagem?

Afiliação dos autores. Texto Modalidade de curso (s) analisado (s). Lista pré-definida (Presencial, Semipresencial, A Distância e Não Informado)

QP1: Que objetivos relacionados a análise de aprendizagem são

abordados?

Objetivo da análise de aprendizagem.

Texto

Ambiente (s) virtual (is) de ensino analisado (s).

Texto QP7: Que ambientes virtuais de aprendizagem se têm utilizado de

análise de aprendizagem? Dados coletados para

análise de aprendizagem.

Texto QP3: Quais dados são os mais explorados nas atividades de coleta?

Abordagem e/ou ferramenta (s) de coleta

de dados utilizado (s).

Texto QP4: Que abordagens/tecnologias de coleta de dados são as mais

aplicadas? Abordagem e/ou

ferramenta (s) de análise de dados utilizada.

Texto QP5: Que abordagens/tecnologias de análise são as mais aplicadas

Resultados relatados pelo estudo.

Lista pré-definida (Sim, Não, e Não Diagnosticado)

QP6: Os estudos apresentam resultados positivos as abordagens de

análise de aprendizagem propostas? Fonte: autoria própria (2019)

4.3 Resultados da revisão

No total foram identificados 321 artigos (311 SCOPUS e 10 CEIE). Seguindo os procedimentos de seleção, 300 estudos foram rejeitados na etapa de pré-seleção pois não atendiam totalmente os critérios de inclusão (Figura 8a) e atendiam total ou parcialmente os critérios de exclusão (Figura 8b).

(43)

43

Figura 8a - Análise dos critérios de inclusão

Fonte: autoria própria (2019)

Figura 8b - Análise dos critérios de Exclusão

Fonte: autoria própria (2019)

Os 21 estudos candidatos remanescentes da pré-seleção foram submetidos ao processo de seleção inicial e final. Individualmente cada pesquisador (R1 e R2) analisou os estudos candidatos aplicando os critérios de inclusão e exclusão a partir da leitura do título, resumo, palavras-chave, autores e afiliação dos trabalhos.

Na seleção inicial, 2 artigos foram considerados duplicados por ambos os pesquisadores, 2 artigos foram rejeitados por atenderem o critério de exclusão E6 (Estudos que não foi possível acessar o texto na íntegra). Os artigos remanescentes foram submetidos a etapa de seleção final. Nesta, os artigos foram analisados aplicando-se os critérios de inclusão e exclusão a partir da leitura da introdução, conclusão e afiliação dos trabalhos. Após a etapa de seleção final, o número total de artigos relevantes resultou em 17, os quais foram submetidos ao processo de extração de dados e avaliação de qualidade, conforme disponível em: https://goo.gl/fwKNZp.

4.3.1 Descobertas da Revisão

Os 17 estudos submetidos à extração de dados e avaliação de qualidade foram indexados com um código identificador único e sequencial. A partir da leitura completa desses trabalhos, foram realizadas as descobertas para as seguintes questões de pesquisa:

QP1: Que objetivos relacionados à análise de aprendizagem são abordados? Ao analisar os estudos, cada um deles aborda uma aplicação da análise de aprendizagem conforme objetivo definido no trabalho. Somente 1 artigo (Id: 26956) não apresentou um objetivo ao processo de análise proposto. Cinco artigos (Ids: 26836, 26973,

Referências

Documentos relacionados

Grau de urgência de estoque calculado em relação ao limite mínimo operacional Grau de urgência de estoque calculado em relação ao limite mínimo físico Grau de urgência das

Através de uma pesquisa exploratória-descritiva este trabalho busca compreender quais são os fatores habilitadores, os fatores intervenientes e como ambos se relacionam

Estaca de concreto moldada in loco, executada mediante a introdução no terreno, por rotação, de um trado helicoidal contínuo. A injeção de concreto é feita pela haste

Assim, escrita feminina e falar (como) mulher se aproximam, criando um elo importante dentro da diferença sexual através da linguagem feminina: a mulher fala de si e para si, fala

O emprego de um estimador robusto em variável que apresente valores discrepantes produz resultados adequados à avaliação e medição da variabilidade espacial de atributos de uma

Neste contexto, este trabalho tem por objetivo apresentar um estudo realizado a partir da aplicação da Mineração de Dados Educacionais a partir de tarefas de aprendizado

E é nesta região que a Morgado Expedições - ME levará você para um trek de 9 dias com a subida do Malchin, uma montanha de 4100 metros de altitude de onde termos uma vista

Contudo, não é possível imaginar que essas formas de pensar e agir, tanto a orientada à Sustentabilidade quanto a tradicional cartesiana, se fomentariam nos indivíduos