Sistemas acadˆ emicos
4.6 Aplica¸ c˜ oes de data warehouse em sistemas educaci onais
Iniciativas de sistemas de apoio `a decis˜ao est˜ao, cada vez, unificando institui¸c˜oes a partir de defini¸c˜oes estrat´egicas fundamentais centradas na an´alise de dados de sistemas educacionais. A utiliza¸c˜ao de DW para a integra¸c˜ao de dados de v´arias fontes vem possibilitando a estrutura¸c˜ao da informa¸c˜ao de forma consistente, de modo a aumentar a acessibilidade, visibilidade e utilidade dessas informa¸c˜oes.
Sob essa perspectiva, pesquisas que utilizam modelagem dimensional de dados disponibilizados em estruturas de Data Warehouse no contexto educacional como, Moscoso- Zea, Andres-Sampedro e Luj´an-Mora (2016), Pasyeka e Pasyeka (2016), Rudy, Miranda e Suryani (2014), Nebic e Mahniˇc (2010), Wai e Aung (2009) e Dimokas et al. (2008) vˆem sendo amplamente exploradas com o objetivo de consolidar dados de interesse considerando informa¸c˜oes heterogˆeneas, em um ´unico reposit´orio de dados.
Dentre essas pesquisas, os modelos dimensionais em estrutura de DW que possuem um maior conjunto de informa¸c˜oes com foco no aluno e seu contexto de aprendizagem s˜ao os modelos propostos por Moscoso-Zea, Andres-Sampedro e Luj´an-Mora (2016), Valdiviezo- D´ıaz et al. (2015) e Dimokas et al. (2008).
Na pesquisa de Moscoso-Zea, Andres-Sampedro e Luj´an-Mora (2016) foram realiza- das entrevistas com os stakeholders para definir os principais processos educacionais que deveriam estar mapeados em um DW. O resultado das entrevistas permitiu a compreens˜ao do cen´ario e a defini¸c˜ao dos dados que seriam extra´ıdos do modelo operacional em um processo de ETL. Um modelo star schema foi desenvolvido para realizar an´alises acerca do conhecimento do alunos, conforme ilustrado na Figura 7.
Nessa pesquisa, os autores n˜ao descreveram os indicadores ou objetivos de an´alises, bem como n˜ao h´a detalhamento dos atributos definidos de cada uma das dimens˜oes. Contudo, foi poss´ıvel perceber que todas as dimens˜oes possuem as caracter´ısticas do aluno, como gˆenero, localiza¸c˜ao, carreira, estado civil, aluno, docente, tempo e ensino m´edio.
Figura 7 – Modelo star schema proposto por Moscoso-Zea, Andres-Sampedro e Luj´an-Mora (2016).
Fonte: Adaptada de Moscoso-Zea, Andres-Sampedro e Luj´an-Mora (2016).
Outro trabalho relevante nessa linha ´e o proposto por Dimokas et al. (2008), que possui dois modelos no formato star schema desenvolvidos para uma universidade. Esses modelos foram projetados com o objetivo de realizar an´alises departamentais, conforme ilustrado na Figura 8. Segundo os autores, as an´alises em n´ıvel de departamento foram desenvolvidas para que a institui¸c˜ao pudesse medir o progresso anual de cada aluno individualmente e enviar tais informa¸c˜oes para entidades governamentais como, por exemplo, o minist´erio da educa¸c˜ao.
Desse modo, a estrutura do primeiro modelo, ilustrado na Figura 8a, possui trˆes dimens˜oes (aluno, curso e tempo) e uma tabela de fato (notas). A dimens˜ao aluno, possui informa¸c˜ao do quinquˆenio (registro de data), ano de matr´ıcula, idade e nome do curr´ıculo. A dimens˜ao curso, possui nome do curr´ıculo, semestre, tipo, nome do curso e c´odigo do curso. Por fim, nas tabelas de fato s˜ao armazenadas as quantidades de exames, a m´edia da nota final e o curso.
A segunda estrutura, ilustrada na Figura 8b, possui duas dimens˜oes (graduado e tempo) e uma tabela de fato (notas). A dimens˜ao graduado, possui informa¸c˜ao do quinquˆenio (registro de data), ano de matr´ıcula, idade e nome do curr´ıculo. A tabela de fato possui o
n´umero de graduados e a m´edia da nota final.
A partir da defini¸c˜ao dos dois modelos e carga dos dados no DW, as an´alises foram realizadas por meio de opera¸c˜oes OLAP. Essas an´alises consideraram: (1) m´edia de notas por aluno em um intervalo de tempo; (2) m´edia de alunos graduados em um intervalo de tempo; e (3) quantidade de graduados em um per´ıodo. Como an´alise estat´ıstica, foi considerado o coeficiente de correla¸c˜ao de Pearson para avaliar o grau de correla¸c˜ao entre a notado do aluno e a dura¸c˜ao do curso.
Figura 8 – Modelos star schema propostos por Dimokas et al. (2008).
(a) Star Schema de notas.
(b) Star Schema de aluno graduado. Fonte: Dimokas et al. (2008).
Na pesquisa realizada por Valdiviezo-D´ıaz et al. (2015), foi desenvolvido um modelo dimensional para a realiza¸c˜ao do processo de BI a partir dos dados do LMS Moodle. O estudo buscou responder basicamente duas quest˜oes: (1) ´E poss´ıvel definir um modelo de tutoria online que pode adapt´avel ao perfil do aluno? (modelo descritivo); e (2) ´E poss´ıvel prever o sucesso de um processo de tutoria online para um curso e um aluno? (modelo preditivo). Para isso, foi realizado um estudo de caso considerando um modelo de ensino baseado em competˆencias para a modalidade a distˆancia. A partir dessas quest˜oes foram definidos os indicadores de desempenho taxa de sucesso do aluno e comunica¸c˜ao de alunos e professores na plataforma, baseados em mensagens, chat , e outros. Por fim, foi desenvolvido o modelo dimensional, no formato Snowflake Schema, conforme ilustrado na Figura 9.
Esse modelo possui quatro perspectivas: usu´ario, curso (matr´ıcula), chat e f´orum de discuss˜ao. Suas principais medidas utilizadas nos experimentos s˜ao: curso, m´odulo, a¸c˜oes, a taxa de sucesso (baseada em estado do aluno aprovado ou reprovado), n´umero de recursos, n´umero de coment´arios do professor para o aluno, n´umero de mensagens recebidas, n´umero de mensagens lidas, n´umero de mensagens de chat, n´umero de participantes no chat, n´umero de mensagens no f´orum de discuss˜ao. Por fim, foram realizadas an´alises probabil´ısticas (Bayesian Network ) utilizando a taxa de performance do modelo dimensional definido.
Figura 9 – Modelo dimensional Snowflake Schema proposto por Valdiviezo-D´ıaz et al. (2015).
Fonte: Valdiviezo-D´ıaz et al. (2015).
Cabe destacar que nessa pesquisa os autores n˜ao descrevem detalhadamente todos os atributos do modelo. Al´em disso, as an´alises realizadas foram pontualmente criadas para responder as duas quest˜oes de pesquisas derivadas em dois indicadores de desempenho.
Dentro desse contexto, ´e importante observar que as pesquisas que utilizam modelo dimensionais como fonte de dados anal´ıtica possuem um grande potencial como sistema de apoio `a decis˜ao. No entanto, no contexto educacional, essas pesquisas abordam quest˜oes es- pec´ıficas considerando an´alises pontuais, sem a utiliza¸c˜ao efetiva do modelo, principalmente em rela¸c˜ao `a utiliza¸c˜ao de diferentes perspectivas correlacionadas.
Desse modo, ´e relevante a investiga¸c˜ao de modelos de dados capazes de possibilitar uma implementa¸c˜ao consistente de dados anal´ıticos considerando diferentes perspectivas, stakeholders e n´ıveis de granularidades.
4.7
Considera¸c˜oes finais
Neste cap´ıtulo foi apresentada uma s´ıntese das principais estruturas utilizadas para a realiza¸c˜ao do processo decis´orio orientada a dados. Esses conceitos serviram de base para a defini¸c˜ao do EDRM desenvolvido no escopo deste trabalho.
Em geral, a utiliza¸c˜ao do Data Warehouse ´e recomendada para sistemas anal´ıticos por possibilitar melhorias de eficiˆencia e flexibilidade, importantes para a recupera¸c˜ao da informa¸c˜ao durante o processo decis´orio. No contexto educacional, as caracter´ısticas de um DW s˜ao decisivas para resolver problemas inerentes `a heterogeneidade dos da- dos educacionais considerando suas diversas fontes de dados, perspectivas e n´ıveis de granularidade.
Em virtude dessas caracter´ısticas, o EDRM foi desenvolvido a partir das defini¸c˜oes de modelagem dimensional no formato Star Schema, para dar suporte a consultas em um DW. Com isso, tem-se uma estrutura de dados pass´ıvel de processamento OLAP com seus dados armazenados de forma dimensional em um SGBD relacional (ROLAP), para que institui¸c˜oes de ensino possam utilizar o mesmo tipo de infraestrutura de dados do sistema educacional para armazenar o modelo anal´ıtico. Al´em disso, essa mesma estrutura ´e adequada a extra¸c˜ao de padr˜oes por tarefas de minera¸c˜ao de dados devido a disponibilidade de dados hist´oricos padronizados, integrados e consistentes. Assim, foi poss´ıvel estruturar dados complexos e heterogˆeneos em um modelo consistente, flex´ıvel e unificado.
No pr´oximo cap´ıtulo ´e apresentado o modelo de referˆencia proposto no escopo deste trabalho de doutorado, considerando o mapeamento dos atributos de interesse e a estrutura¸c˜ao do modelo a partir de um reposit´orio informacional de dados ou Data Warehouse, que possui um conjunto de esquemas dimensionais conectados por dimens˜oes
CAP´ITULO
5
MODELO DE REFERˆENCIA DE DADOS
EDUCACIONAIS
5.1
Considera¸c˜oes iniciais
Neste cap´ıtulo, ´e apresentado o Modelo de Referˆencia de Dados Educacionais (Educational Data Reference Model – EDRM) proposto neste trabalho. Esse modelo ´e resultante de pesquisas em An´alise Educacional (Learning Analytics, Academic Analytics e Minera¸c˜ao de Dados Educacionais), tendo sido definido para dar subs´ıdio `a tomada de decis˜ao orientada a dados por meio de processamento anal´ıtico e Minera¸c˜ao de Dados.
O EDRM foi desenvolvido a partir de an´alises de dados e funcionalidades de siste- mas educacionais, para que dados de diferentes tipos de sistemas, mas com caracter´ısticas semelhantes, possam ser utilizados de forma unificada, integrada e consistente. Sua arqui- tetura ´e estruturada segundo um Data Warehouse seguindo um modelo dimensional de dados, projetado para ser uma fonte ´unica de dados integrados e correlacionados, voltada `
a tomada de decis˜ao. Desse modo, a partir do EDRM, ´e poss´ıvel armazenar dados de diferentes fontes, combin´a-los e, por fim, realizar an´alises para que institui¸c˜oes possam desenvolver uma melhor compreens˜ao, rastrear tendˆencias e descobrir lacunas e ineficiˆencias acerca do processo educacional.
Na Se¸c˜ao 5.2 s˜ao definidos os atributos relevantes ao EDRM a partir de pesquisas que exploram funcionalidades e caracter´ısticas dos dados de sistemas educacionais. Para isso, s˜ao exploradas formas de realizar an´alises nos dados a partir da defini¸c˜ao de indicadores de desempenho e sua operacionaliza¸c˜ao por meio de processamento anal´ıtico (Business Intelligence, Data Warehouse e modelo dimensional de dados) e tarefas de Minera¸c˜ao de
Dados Educacionais. Na Se¸c˜ao 5.3 ´e detalhado o EDRM considerando suas tabelas fato com medias num´ericas e dimens˜oes com atributos que descrevem as medidas. Na Se¸c˜ao 5.4 s˜ao definidos alguns dos principais stakeholders no contexto educacional. Por fim, na Se¸c˜ao 5.5 s˜ao abordados itens que precisam ser considerados por institui¸c˜oes de ensino antes de iniciar a instancia¸c˜ao do EDRM.