• Nenhum resultado encontrado

Geração de modelos de predição para estudantes em risco de evasão em cursos técnicos a distância utilizando técnicas de mineração de dados

N/A
N/A
Protected

Academic year: 2021

Share "Geração de modelos de predição para estudantes em risco de evasão em cursos técnicos a distância utilizando técnicas de mineração de dados"

Copied!
93
0
0

Texto

(1)

Programa de P ´os-Graduac¸ ˜ao em Computac¸ ˜ao

Dissertac¸ ˜ao

Gerac¸ ˜ao de Modelos de Predic¸ ˜ao para Estudantes em Risco de Evas ˜ao em Cursos T ´ecnicos a Dist ˆancia Utilizando T ´ecnicas de Minerac¸ ˜ao de Dados

Emanuel Marques Queiroga

(2)

Gerac¸ ˜ao de Modelos de Predic¸ ˜ao para Estudantes em Risco de Evas ˜ao em Cursos T ´ecnicos a Dist ˆancia Utilizando T ´ecnicas de Minerac¸ ˜ao de Dados

Dissertac¸ ˜ao apresentada ao Programa de P ´os-Graduac¸ ˜ao em Computac¸ ˜ao da Universi-dade Federal de Pelotas, como requisito par-cial `a obtenc¸ ˜ao do t´ıtulo de Mestre em Ci ˆencia da Computac¸ ˜ao

Orientador: Prof. Dr. Cristian Cechinel

Coorientador: Prof. Dr. Ricardo Matsumura Araujo

(3)

Q3g Queiroga, Emanuel Marques

QueGeração de modelos de predição para estudantes em risco de evasão em cursos técnicos a distância utilizando técnicas de mineração de dados / Emanuel Marques Queiroga ; Cristian Cechinel, orientador ; Ricardo Matsumura Araujo, coorientador. — Pelotas, 2017.

Que93 f. : il.

QueDissertação (Mestrado) — Programa de Pós-Graduação em Computação, Centro de Desenvolvimento Tecnológico, Universidade Federal de Pelotas, 2017.

Que1. Mineração de dados. 2. Predição. 3. Evasão. 4. Inteligência artificial. I. Cechinel, Cristian, orient. II. Araujo, Ricardo Matsumura, coorient. III. Título.

CDD : 005

(4)

Agradec¸o aos meus av ´os Ereni e Jo ˜ao, sem eles nada em minha vida teria sido poss´ıvel. Obrigado, por oferecer-me a oportunidade de estudar e nunca terem desis-tido de mim.

Agradec¸o imensamente a minha namorada Tain ´a, que me acompanhou ao longo dessa jornada e em tantos momentos foi privada de lazer e e das t ˜ao sonhadas via-gens de f ´erias, para que eu pudesse dar continuidade a esse trabalho.

Devo no m´ınimo um obrigado a minhas dindas, N ´adia e Marcia, por todo o suporte que me deram em minha inf ˆancia, por todos pux ˜oes de orelha que eu mereci e foram dados.

No meio acad ˆemico, gostaria de agradecer ao apoio incondicionalmente prestado pelos meus orientadores Prof. Dr. Cristian Cechinel e Prof. Dr. Ricardo Matsumura Araujo, que em nenhum momento desistiram deste projeto.

Meus sinceros agradecimentos ao Instituto Federal Sul-rio-grandense Campus Visconde da Grac¸a e a Universidade Federal de Pelotas, pelo suporte dado para execuc¸ ˜ao.

(5)

elas apenas fazem o melhor com tudo o que t ˆem.

(6)

QUEIROGA, Emanuel Marques. Gerac¸ ˜ao de Modelos de Predic¸ ˜ao para Estudan-tes em Risco de Evas ˜ao em Cursos T ´ecnicos a Dist ˆancia Utilizando T ´ecnicas de Minerac¸ ˜ao de Dados. 2017. 92 f. Dissertac¸ ˜ao (Mestrado em Ci ˆencia da Computac¸ ˜ao) – Programa de P ´os-Graduac¸ ˜ao em Computac¸ ˜ao, Centro de Desenvol-vimento Tecnol ´ogico, Universidade Federal de Pelotas, Pelotas, 2017.

A evas ˜ao ´e considerada um dos principais problemas relacionados com a Educac¸ ˜ao a Dist ˆancia (EAD). Nessa modalidade de ensino, a interac¸ ˜ao entre estudantes e profes-sores geralmente ´e mediada por um Ambiente Virtual de Aprendizagem (AVA), onde ficam registradas em seus logs de interac¸ ˜oes as ac¸ ˜oes realizadas pelos estudantes e professores durante o processo de ensino-aprendizagem. O grande volume de dados gerados por essas interac¸ ˜oes permite a utilizac¸ ˜ao de t ´ecnicas de minerac¸ ˜ao para analisar os dados dos estudantes. Este trabalho aplica t ´ecnicas de minerac¸ ˜ao de dados e aprendizagem de m ´aquina em logs das interac¸ ˜oes dos estudantes de cursos t ´ecnicos a dist ˆancia dentro dos AVAs com o objetivo de identificar estudantes em situac¸ ˜ao de risco de evas ˜ao, utilizando como vari ´aveis principais de entrada para os modelos de predic¸ ˜ao apenas a contagem dessas interac¸ ˜oes e atributos variados das mesmas. Foram utilizados dados de logs no AVA (contagens de interac¸ ˜oes e situac¸ ˜ao final dos estudantes) de quatro cursos t ´ecnicos EAD. As interac¸ ˜oes dos estudantes foram contabilizadas separadamente da seguinte forma: quantidade de interac¸ ˜oes di ´arias, soma das interac¸ ˜oes semanais, m ´edia semanal das interac¸ ˜oes, desvio padr ˜ao e situac¸ ˜ao final. Foram avaliados dois cen ´arios diferentes, sendo eles: 1) Gerac¸ ˜ao de modelos de predic¸ ˜ao com treinamento e teste utilizando dados do pr ´oprio curso e a partir de validac¸ ˜ao cruzada e 2) Treinamento dos modelos com dados de tr ˆes cursos e teste dos modelos com dados do curso restante. No primeiro cen ´ario, foram obtidos modelos de predic¸ ˜ao da evas ˜ao com ACG de at ´e 84% antes da d ´ecima semana de curso, alcanc¸ado 95% at ´e a semana 52. No segundo, a maioria dos modelos de predic¸ ˜ao apresentam resultados de at ´e 80% nas primeiras dez semanas de curso alcanc¸ando 98% antes da metade do curso. Um dos modelos alcanc¸ou uma ACG de at ´e 95% desde as primeiras semanas. Na comparac¸ ˜ao direta com o modelo estat´ıstico, ambas as t ´ecnicas apresentaram resultados pr ´oximos nas primeiras semanas. Entretanto, a partir da d ´ecima semana, os modelos gerados por meio de minerac¸ ˜ao de dados apresentaram um crescimento significativo nas ACG, enquanto que o modelo estat´ıstico se manteve est ´avel. Assim a contribuic¸ ˜ao deste trabalho ´e a gerac¸ ˜ao de modelos de predic¸ ˜ao que possam auxiliar de forma mais precisa no combate a evas ˜ao.

(7)

QUEIROGA, Emanuel Marques. Generating predictive models for at-risk stu-dents in distance technical courses using data mining techniques. 2017. 92 f. Dissertac¸ ˜ao (Mestrado em Ci ˆencia da Computac¸ ˜ao) – Programa de P ´os-Graduac¸ ˜ao em Computac¸ ˜ao, Centro de Desenvolvimento Tecnol ´ogico, Universidade Federal de Pelotas, Pelotas, 2017.

Evasion is considered one of the main problems related to e-learning (EAD). In this teaching modality, the interaction between students and teachers is usually mediated by a Virtual Learning Environment (AVA), where the actions taken by students and teachers during the teaching-learning process are recorded in their interaction logs. The large volume of data generated by these interactions allows the use of mining techniques to analyze student data. This work applies data mining and machine learning techniques to logs of students’ interactions of distance technical courses within AVA’s in order to identify students at risk of evasion, using as main input variables for the prediction models Only the count of these interactions and varied attributes of them. Data from logs in the AVA (interaction counts and students’ final situation) of four EAD technical courses were used. Student interactions were counted separately as follows: number of daily interactions, sum of weekly interactions, weekly mean of interactions, standard deviation and final situation. Two different scenarios were evaluated: 1) Generation of prediction models with training and test using data from the course itself and from cross validation and 2) Training of the models with data from three courses and test of the models with data from the course remaining. In the first scenario, prediction models of prediction of ACG evasion up to 84% were obtained before the tenth week of course, reaching 95% until week 52. In the second scenario, most of the prediction models present results of up to 80% In the first ten weeks of the course reaching 98% before the middle of the course. One of the models has achieved an ACG of up to 95% since the first few weeks. In the direct comparison with the statistical model, both techniques showed close results in the first weeks. However, from the tenth week, the models generated through data mining showed a significant growth in the GCA, while the statistical model remained stable. The contribution of this work is the generation of models able to early predict dropout students..

(8)

Figura 1 Matriculas em cursos a Dist ˆancia 2015 - Adaptado de CENSO (2015) 17

Figura 2 Quantitativos de estudantes EAD - Adaptado de CENSO (2015) . . 18

Figura 3 Descoberta do conhecimento - KDD. Adaptado de FAYYAD; PIATETSKY-SHAPIRO; SMYTH (1996) . . . 23

Figura 4 Descoberta do conhecimento - KDD. Adaptado de HAN; PEI; KAM-BER (2011) . . . 26

Figura 5 Formul ´a teorema de Bayes . . . 30

Figura 6 Conjunto de dados . . . 32

Figura 7 Exemplo de ´arvore . . . 32

Figura 8 Form ´ula da transformada l ´ogica . . . 33

Figura 9 Modelo de uma rede neural - Adaptado de SEGATTO; COURY (2008) 34 Figura 10 Partes de um dos arquivos ARFF utilizado no projeto . . . 37

Figura 11 Fluxo de dados e sequ ˆencia dos projetos . . . 48

Figura 12 Cen ´ario 1 . . . 56

Figura 13 Cen ´ario 2 . . . 57

Figura 14 Resultado Cen ´ario 1 Experimento final Curso 3 VP . . . 58

Figura 15 Resultado Cen ´ario 1 Experimento final Curso 3 VN . . . 59

Figura 16 Resultado Cen ´ario 1 Experimento final Curso 1 VN . . . 60

Figura 17 Resultado Cen ´ario 1 Experimento final Curso 1 VP . . . 61

Figura 18 Resultado Cen ´ario 2 Experimento final Curso 3 VP . . . 62

Figura 19 Resultado Cen ´ario 2 Experimento final Curso 3 VN . . . 63

Figura 20 Resultado Cen ´ario 2 Experimento final Curso 1 VP . . . 63

Figura 21 Resultado Cen ´ario 2 Experimento final Curso 1 VN . . . 64

Figura 22 Resultado curso 1 - Verdadeiros Negativos Cen ´ario 2 . . . 65

Figura 23 Arvore de decis ˜ao curso 1 - Semana 25 . . . .´ 67

Figura 24 Arvore de decis ˜ao curso 1 - Semana 50 . . . .´ 68

(9)

Tabela 1 Quadro de evoluc¸ ˜ao da Minerac¸ ˜ao de Dados - Adaptado de

VAS-CONCELOS; CARVALHO (2004) . . . 20

Tabela 2 Comparativo entre trabalhos relacionados - Parte 1 . . . 44

Tabela 3 Comparativo entre trabalhos relacionados - Parte 2 . . . 45

Tabela 4 Comparativo entre trabalhos relacionados - Parte 3 . . . 46

Tabela 5 Quantitivo de dados utilizados . . . 52

Tabela 6 Modelo de log do Moodle . . . 53

Tabela 7 Vari ´aveis Utilizadas . . . 54

Tabela 8 Comparativo entre Experimentos do Autor . . . 70

(10)

ABED Associac¸ ˜ao Brasileira de Educac¸ ˜ao a Dist ˆancia ABNT Associac¸ ˜ao Brasileira de Normas T ´ecnicas ARFF Attribute Relation File Format

AVA Ambiente Virtual de Aprendizagem CaVG Campus Visconde da Grac¸a

CSV Comma-separated values EAD Educac¸ ˜ao a Dist ˆancia

EDM Minerac¸ ˜ao de Dados educacionais IDH ´Indice de Desenvolvimento Humano IFSul Instituto Federal Sul-rio-grandense LDB Lei de Diretrizes e Bases da Educac¸ ˜ao

KDD Descoberta de conhecimento em Bases de Dados(Knowledge Discovery in Databases)

MD Minerac¸ ˜ao de Dados MEC Minist ´erio da Educac¸ ˜ao

Moodle Modular Object-Oriented Dynamic Learning Environment PNUD Plano das Nac¸ ˜oes Unidas para o Desenvolvimento UFPel Universidade Federal de Pelotas

VP Verdadeiros Positivos VN Verdadeiros Negativos

(11)

1 INTRODUC¸ ˜AO . . . . 12

1.1 Objetivos e metas . . . . 14

1.2 Estrutura do texto . . . . 15

2 REFERENCIAL TE ´ORICO . . . . 16

2.1 Educac¸ ˜ao a Dist ˆancia . . . . 16

2.2 Evas ˜ao Escolar . . . 18

2.3 Minerac¸ ˜ao de Dados . . . 20

2.3.1 Selec¸ ˜ao dos dados . . . 23

2.3.2 Pr ´e-processamento e limpeza dos dados . . . 24

2.3.3 Minerac¸ ˜ao de dados educacionais . . . 26

2.3.4 Aprendizagem de M ´aquina . . . 29

2.3.5 Ferramentas para minerac¸ ˜ao de dados . . . 35

3 TRABALHOS RELACIONADOS . . . . 39

3.1 Descric¸ ˜ao dos trabalhos relacionados . . . . 39

3.2 An ´alise dos trabalhos relacionados . . . . 47

4 METODOLOGIA E EXPERIMENTOS . . . . 50

4.1 Contexto . . . . 50

4.2 Metodologia . . . . 51

4.2.1 Coleta . . . 51

4.2.2 Pr ´e-processamento dos dados . . . 52

4.2.3 Modelo Estat´ıstico descritivo . . . 54

4.2.4 Gerac¸ ˜ao e avalic¸ ˜ao dos modelos de predic¸ ˜ao . . . 55

4.2.5 Configurac¸ ˜ao do experimento final . . . 56

4.3 Resultados encontrados . . . . 57

4.3.1 Resultados Cen ´ario 1 . . . 58

4.3.2 Resultados Cen ´ario 2 . . . 61

4.3.3 Arvores de Decis ˜ao . . . .´ 65

5 DISCUSS ˜AO DOS RESULTADOS . . . . 70

5.1 Comparac¸ ˜ao com os Trabalhos Relacionados . . . . 71

6 CONSIDERAC¸ ˜OES FINAIS . . . . 74

REFER ˆENCIAS . . . . 76

(12)
(13)

No atual contexto social tornou-se indispens ´avel a busca por conhecimentos e qualificac¸ ˜ao das pessoas, de forma que nos ´ultimos anos o governo brasileiro atrav ´es do Minist ´erio da Educac¸ ˜ao e entidades de fomento t ˆem feito uma s ´erie de investimen-tos em programas de educac¸ ˜ao buscando a qualificac¸ ˜ao da m ˜ao de obra produtiva no pa´ıs.

Considerando que o Brasil ´e um pa´ıs de grandes dimens ˜oes, diversas cidades est ˜ao afastadas dos grandes centros universit ´arios e acabam ficando isoladas de pro-gramas de graduac¸ ˜ao e cursos t ´ecnicos profissionalizantes. Desta forma, uma das alternativas adotadas pelo governo federal para a expans ˜ao do acesso a educac¸ ˜ao foi a utilizac¸ ˜ao da modalidade `a dist ˆancia (Educac¸ ˜ao a Dist ˆancia - EAD), que tem como um de seus objetivos levar o ensino a estas localidades, geralmente utilizando Ambi-entes Virtuais de Aprendizagem (AVAs) (DELANO; CORR ˆeA, 2013).

O AVA ´e o “local virtual” onde os cursos na modalidade a dist ˆancia, ou semipre-senciais, normalmente acontecem. S ˜ao ambientes que utilizam plataformas especial-mente planejadas para abrigar cursos. Uma das plataformas mais utilizadas no pa´ıs ´e o Modular Object-Oriented Dynamic Learning Environment (Moodle1).

No Moodle existem diversas ´areas para apresentac¸ ˜ao de conte ´udos em diver-sos formatos, atividades de verificac¸ ˜ao da aprendizagem e espac¸os para interac¸ ˜ao s´ıncrona, por meio de chats, e ass´ıncrona, atrav ´es de f ´oruns de discuss ˜ao. Tratam-se de recursos que permitem a interac¸ ˜ao dos estudantes entre si e com a equipe de tutores e professores. A organizac¸ ˜ao do ambiente virtual permite ao aluno um acom-panhamento organizado e sistematizado daquilo que ´e estudado a cada semana. A recuperac¸ ˜ao da informac¸ ˜ao e dos conte ´udos estudados tamb ´em ´e um dos benef´ıcios proporcionados por cursos a dist ˆancia que utilizam AVAs (SEGUNDO; RAMOS, 2005). Um dos principais desafios da EAD ´e obter a diminuic¸ ˜ao do ´ındice de evas ˜ao, que conforme o Censo EAD (CensoEAD, 2013), foi de 18,6% em 2010, 20,5% em 2011, 11,74% em 2012 e 16,94% em 2013 nos cursos autorizados pelo Minist ´erio da Educac¸ ˜ao (MEC). Num contexto onde em 2013 haviam 5754 cursos autorizados pelo

(14)

MEC e a taxa de matriculas anual foi de 882.843, temos em torno de 149.553 alunos evadidos.

BARROSO; FALC ˜aO (2004) agrupam as condic¸ ˜oes desencadeantes para evas ˜ao em 3 classificac¸ ˜oes, i) econ ˆomica - impossibilidade de permanecer no curso por quest ˜oes socioecon ˆomicas; ii) vocacional – o aluno n ˜ao se identifica com o curso; iii) institucional – abandono por fracasso nas disciplinas iniciais, inadequac¸ ˜ao aos m ´etodos de estudo, dificuldades de relacionamento com colegas ou com membros da instituic¸ ˜ao.

Segundo MANH ˜aES et al. (2011), a detecc¸ ˜ao precoce de grupos de alunos com risco de evas ˜ao ´e uma condic¸ ˜ao importante para reduzir o problema da evas ˜ao, uma vez que um tratamento mais adequado pode ser ofertado a esses alunos. Ainda se-gundo MANH ˜aES et al. (2011), atualmente o processo de identificac¸ ˜ao desse grupo de alunos ´e manual, subjetivo, emp´ırico e sujeito a falhas, pois depende primordial-mente da experi ˆencia acad ˆemica e do envolvimento dos docentes. Geralprimordial-mente, estes desempenham in ´umeras atividades, portanto ´e dif´ıcil acompanhar e reconhecer as necessidades de cada aluno e identificar aqueles alunos que apresentam risco de evas ˜ao.

Com o grande volume de dados gerados pelos ambientes virtuais de apren-dizagem, o trabalho de descoberta do conhecimento atrav ´es da an ´alise dessas informac¸ ˜oes sem uma ferramenta adequada se torna mais complexo, trabalhoso e dispendioso. Assim, tentando minimizar este problema e os apontados por MANH ˜aES et al. (2011), a minerac¸ ˜ao de dados surge como uma alternativa no tratamento e para descoberta de conhecimento nessas bases.

A minerac¸ ˜ao de dados ´e a disciplina que estuda a descoberta de novas informac¸ ˜oes a partir da an ´alise de grandes quantidades de dados, tendo como ob-jetivo identificar relac¸ ˜oes e padr ˜oes nos dados e, assim, produzir novas informac¸ ˜oes. Estas informac¸ ˜oes podem propiciar a descoberta de novas regras ou padr ˜oes associ-ados ao comportamento e assim possibilitar a predic¸ ˜ao de situac¸ ˜oes (BAKER; YACEF, 2009).

Como exemplo, poder´ıamos aplicar a minerac¸ ˜ao de dados nas informac¸ ˜oes de venda de um mercado em um determinado per´ıodo, assim podendo identificar a relac¸ ˜ao entre os produtos e reorganizar o estoque para que os produtos com a relac¸ ˜ao mais pr ´oxima de venda fiquem em lugares estrat ´egicos ou at ´e mesmo planejar o es-toque de determinados produtos em determinados per´ıodos.

A minerac¸ ˜ao de dados tamb ´em pode ser aplicada em problemas mais complexos, tais como: a predic¸ ˜ao de condic¸ ˜oes clim ´aticas, a identificac¸ ˜ao de faces, a alocac¸ ˜ao de banda de um servidor, a predic¸ ˜ao de caracter´ısticas do solo e a utilizac¸ ˜ao de dados educacionais para descoberta de padr ˜oes e predic¸ ˜ao de comportamento.

(15)

de pesquisa recente e que tem como principal objetivo o desenvolvimento e aplicac¸ ˜ao de t ´ecnicas de minerac¸ ˜ao de dados na explorac¸ ˜ao de conjuntos de dados coletados em ambientes educacionais.

Atualmente a EDM vem se estabelecendo como uma forte e consolidada linha de pesquisa que possui grande potencial para melhorar a qualidade do ensino (BAKER; ISOTANI; CARVALHO, 2011). Essa ´area pode ajudar as instituic¸ ˜oes a criarem mo-delos de predic¸ ˜ao que tenham condic¸ ˜oes de avaliar as chances de um determinado acad ˆemico evadir.

A aplicac¸ ˜ao da EDM pode possibilitar o tratamento diferenciado entre os alunos, dedicando formas de aux´ılio diferenciadas a um determinado aluno que esteja com uma probabilidade maior de evas ˜ao.

1.1

Objetivos e metas

Este trabalho tem como objetivo estudar e aplicar as t ´ecnicas de minerac¸ ˜ao de dados e aprendizagem de m ´aquina em dados dispon´ıveis da EAD do Instituto Federal Sul-rio-grandense (IFSUL), propondo um modelo de predic¸ ˜ao para evas ˜ao de alunos baseado somente na contagem de interac¸ ˜oes e suas variac¸ ˜oes, assim possibilitando o emprego em diferentes dom´ınios de aplicac¸ ˜ao.

O objetivo geral se desdobra nas seguintes metas espec´ıficas, a serem contem-pladas neste trabalho.

• Realizar um levantamento das pesquisas dispon´ıveis na ´area de minerac¸ ˜ao de dados educacionais, principalmente para a predic¸ ˜ao de estudantes em risco de evas ˜ao e/ou reprovac¸ ˜ao.

• Documentar as principais teorias e conceitos aplicados na minerac¸ ˜ao de dados educacionais e principalmente nos dados de interac¸ ˜oes de alunos com ambien-tes de aprendizagem, bem como os algoritmos que apresentam os resultados mais satisfat ´orios na ´area e suas caracter´ısticas.

• Gerar e testar modelos de predic¸ ˜ao para identificac¸ ˜ao de estudantes de cur-sos t ´ecnicos a dist ˆancia em risco de evas ˜ao, utilizando somente contagem de interac¸ ˜oes e diferentes variac¸ ˜oes desta.

Considerando os aspectos apresentados, o foco deste trabalho ´e utilizar apenas contagem de interac¸ ˜oes ao longo do tempo, uma vez que esta ´e uma m ´etrica fa-cilmente generaliz ´avel para outras plataformas e abordagens de ensino, em con-traste com abordagens que s ˜ao extremamente espec´ıficas (e.g. utilizando tipos de interac¸ ˜oes que n ˜ao necessariamente existem em todas plataformas ou s ˜ao utilizadas em todas execuc¸ ˜oes de cursos).

(16)

1.2

Estrutura do texto

Essa dissertac¸ ˜ao esta constitu´ıda por este e mais seis cap´ıtulos, conforme estru-tura descrita a seguir.

No cap´ıtulo 2 s ˜ao apresentados os referenciais te ´oricos sistematizados que foram utilizados no desenvolvimento dessa dissertac¸ ˜ao, considerando o tema central de pes-quisa.

No cap´ıtulo 3 s ˜ao apresentados diversos trabalhos na ´area de minerac¸ ˜ao de dados educacionais enfocados no problema da predic¸ ˜ao de estudantes em risco, assim como as principais t ´ecnicas aplicadas por esses trabalhos e uma breve discuss ˜ao sobre as diferenc¸as entre os mesmos e os resultados obtidos.

No cap´ıtulo 4 s ˜ao apresentados a metodologia e os experimentos desenvolvidos no decorrer desta dissertac¸ ˜ao. Para isto, ´e apresentado o contexto dos dados que foram utilizados para os experimentos, os processos utilizados para minerac¸ ˜ao de dados e a gerac¸ ˜ao dos modelos propriamente dita.

No cap´ıtulo 5 s ˜ao apresentados os resultados encontrados nos experimentos deste trabalho.

No cap´ıtulo 6 ´e feita a discuss ˜ao dos resultados obtidos nesta dissertac¸ ˜ao e sua comparac¸ ˜ao com o estado da arte na predic¸ ˜ao de evas ˜ao.

O cap´ıtulo 7 apresenta as considerac¸ ˜oes finais bem como propostas para trabalhos futuros.

(17)

Este cap´ıtulo apresenta a sistematizac¸ ˜ao de conceitos que foi feita considerando o tema central de pesquisa desta dissertac¸ ˜ao. Nesse sentido, s ˜ao apresentados os con-ceitos sobre Educac¸ ˜ao a Dist ˆancia, Evas ˜ao Escolar, Minerac¸ ˜ao de Dados, Minerac¸ ˜ao de Dados Educacionais (EDM) e ainda Aprendizagem de M ´aquina.

2.1

Educac¸ ˜ao a Dist ˆancia

A educac¸ ˜ao a dist ˆancia(EAD) ´e uma modalidade de ensino onde discentes e do-centes est ˜ao separados fisicamente, ou seja, n ˜ao est ˜ao no mesmo local f´ısico. Atu-almente a forma de mediac¸ ˜ao entre os discentes e docentes mais utilizada s ˜ao os ambientes virtuais como o Moodle (LITTO; FORMIGA, 2011).

Historicamente a educac¸ ˜ao a dist ˆancia faz parte da formac¸ ˜ao profissional e cul-tural de milh ˜oes de pessoas que n ˜ao possam frequentar uma instituic¸ ˜ao de ensino presencial, por motivos como por exemplo, a dificuldade de acesso aos grandes cen-tros profissionalizantes e/ou universit ´arios. Entretanto, somente nas ´ultimas d ´ecadas passou a fazer parte das atenc¸ ˜oes pedag ´ogicas (MAIA; MATTAR, 2008).

Ap ´os as grandes guerras novas iniciativas de ensino se tornaram uma necessi-dade pelo aumento da demanda social por educac¸ ˜ao. Com o aperfeic¸oamento das t ´ecnicas de transporte e comunicac¸ ˜ao como os servic¸os de correios, tel ´egrafos, ra-diof ˆonicos e at ´e mesmo telef ˆonico podendo ser aplicados diretamente na comunicac¸ ˜ao e informac¸ ˜ao n ˜ao somente dos ex ´ercitos, mas tamb ´em da sociedade, cresceu a de-manda por uma forma de educac¸ ˜ao que pode-se levar `as pessoas, afastadas dos grandes centros, educac¸ ˜ao de qualidade. Baseado em um modelo de ensino por correspond ˆencia, que surgiu na antiga Uni ˜ao Sovi ´etica em 1922, a Franc¸a criou seu servic¸o de ensino postal para atender estudantes deslocados pelo ˆexodo das guerras e o mesmo, em dois anos, passou a atender 350 mil usu ´arios (JUNIOR, 2013).

Com a evoluc¸ ˜ao dos meios de comunicac¸ ˜ao o ensino a dist ˆancia utilizou integrada-mente o ´audio e o videocassete, as transmiss ˜oes de r ´adio e televis ˜ao, o videotexto, o computador e, com o advento da internet, a tecnologia de multimeios, que combinando

(18)

textos, sons, imagens, assim como mecanismos de gerac¸ ˜ao de caminhos alternativos de aprendizagem (hipertextos, diferentes linguagens) e instrumentos para fixac¸ ˜ao de aprendizagem com feedback imediato (programas tutoriais informatizados) JUNIOR (2013).

Como sugere FARIA (2004), no s ´eculo XXI necessitam as instituic¸ ˜oes de ensino estarem preparadas para interagir com uma gerac¸ ˜ao mais atualizada e mais infor-mada, porque os modernos meios de comunicac¸ ˜ao, liderados pela Internet, permitem o acesso instant ˆaneo `a informac¸ ˜ao e os alunos t ˆem mais facilidade para buscar co-nhecimento por meio da tecnologia colocada `a sua disposic¸ ˜ao. Os procedimentos did ´aticos, nesta nova realidade, devem privilegiar a construc¸ ˜ao coletiva dos conheci-mentos, mediados pela tecnologia, na qual o professor ´e um part´ıcipe pr ´o-ativo que intermedeia e orienta esta construc¸ ˜ao.

Na Figura 1 constantes no Censo Brasileiro de educac¸ ˜ao a dist ˆancia CENSO (2015), ´e poss´ıvel analisar os n ´umeros de matriculas registradas em cursos de educac¸ ˜ao a dist ˆancia, nos diferentes formatos dispon´ıveis no Brasil atualmente.

Figura 1: Matriculas em cursos a Dist ˆancia 2015 - Adaptado de CENSO (2015) A Figura 2, apresenta os quantitativos de estudantes que em 2015 estavam cur-sando algum tipo de curso a dist ˆancia homologado pelo Minist ´erio da Educac¸ ˜ao.

(19)

Figura 2: Quantitativos de estudantes EAD - Adaptado de CENSO (2015) Segundo a Associac¸ ˜ao Brasileira de Educac¸ ˜ao a Dist ˆancia (ABED), os tr ˆes prin-cipais problemas enfrentados pela Educac¸ ˜ao a Dist ˆancia no Brasil s ˜ao a evas ˜ao, a resist ˆencia dos pr ´oprios educadores e a dificuldade de adaptac¸ ˜ao dos estudantes a essa modalidade de ensino CENSO (2015).

Como esse trabalho tem como um de seus objetivos a gerac¸ ˜ao de modelos de predic¸ ˜ao que auxiliem na identificac¸ ˜ao de estudantes em risco de evas ˜ao, esse pro-blema ser ´a abordado na pr ´oxima sec¸ ˜ao desse trabalho.

2.2

Evas ˜ao Escolar

A evas ˜ao est ´a entre os temas que tem grande relev ˆancia no debate sobre educac¸ ˜ao no cen ´ario das pol´ıticas p ´ublicas, sendo um dos temas mais discutidos na educac¸ ˜ao. Assim a evas ˜ao ´e um grande desafio para as escolas, pais e para o sis-tema educacional, sendo ela um dos principais problemas enfrentados pela educac¸ ˜ao no Brasil.

O conceito de evas ˜ao escolar definido por EYNG et al. (2013) ´e quando o aluno deixa de frequentar a aula, caracterizando o abandono da escola durante o ano letivo. Ele ainda define a evas ˜ao como um processo gradativo, que muitas vezes vai ocor-rendo no andamento do curso e n ˜ao ´e notado. Para isso ele usa o seguinte relato: ”No comec¸o eram faltas espor ´adicas. Depois, passaram a ser semanais. A professora foi se acostumando ao sil ˆencio quando chamava o nome do aluno. At ´e que um dia ele n ˜ao apareceu mais.”

Segundo a legislac¸ ˜ao brasileira vigente, a responsabilidade da evas ˜ao na educac¸ ˜ao ´e tanto do Estado quanto da fam´ılia, desta forma tendo esses dois agen-tes o dever da orientac¸ ˜ao s ´ocioeducacional de crianc¸as e adolescenagen-tes. A Lei de Diretrizes e Bases da Educac¸ ˜ao (LDB) ´e clara quanto a isso como podemos ver abaixo(QUEIROZ, 2001).

Art. 2o. A educac¸ ˜ao, dever da fam´ılia e do Estado, inspirada nos

(20)

finalidade o pleno desenvolvimento do educando, seu preparo para o exerc´ıcio da cidadania e sua qualificac¸ ˜ao para o trabalho.

O governo brasileiro, ciente deste problema, vem estudando a evas ˜ao h ´a alguns anos e definiu que a evas ˜ao ´e definida em tr ˆes eixos(MANH ˜aES et al., 2011):

• Evas ˜ao de curso - quando o estudante desliga-se do curso de graduac¸ ˜ao em situac¸ ˜oes diversas: abandono (deixa de se matricular), desist ˆencia (oficial), 3 transfer ˆencia (mudanc¸a de curso) ou exclus ˜ao por norma institucional;

• Evas ˜ao da instituic¸ ˜ao - quando o estudante desliga-se da instituic¸ ˜ao na qual est ´a matriculado;

• Evas ˜ao do sistema - quanto o estudante abandona de forma definitiva ou tem-por ´aria o ensino superior.

Hoje, mesmo com o d ´eficit nacional de m ˜ao de obra especializada e as universi-dades oferecendo a cada ano um crescente n ´umero de vagas, o n ´umero de formados reduz a cada ano(BRASIL, 2013). Somando a isso h ´a ainda o fator de que a ocupac¸ ˜ao de uma vaga em uma instituic¸ ˜ao p ´ublica de ensino seguida do abandono tornou-se um problema generalizado, independente da instituic¸ ˜ao, gerando perdas pessoais, sociais e financeiras(MANH ˜aES et al., 2011).

Desta forma o problema da evas ˜ao deixou de ser um problema pessoal do estu-dante e passa para a ser um problema de estado, que precisa ser combatido para n ˜ao comprometer ainda mais a m ˜ao de obra produtiva do pa´ıs em um futuro pr ´oximo.

Alguns autores como BARROSO; FALC ˜aO (2004) que avaliam o problema da evas ˜ao, definem os fatores que desencadeiam a evas ˜ao escolar em tr ˆes principais agrupamentos:

• econ ˆomica - impossibilidade de permanecer no curso por quest ˜oes socioe-con ˆomicas;

• vocacional – o aluno n ˜ao se identifica com o curso;

• institucional – abandono por fracasso nas disciplinas iniciais, inadequac¸ ˜ao aos m ´etodos de estudo, dificuldades de relacionamento com colegas ou com mem-bros da instituic¸ ˜ao.

Apesar de existirem muitos trabalhos sobre a evas ˜ao, poucos s ˜ao voltados para o ensino t ´ecnico. Da mesma forma, existe uma gama muito grande de relat ´orios com os n ´umeros da evas ˜ao no ensino superior, mas praticamente nada sobre o ensino t ´ecnico. Valendo ressaltar que no Brasil o ensino t ´ecnico ´e enquadrado como ensino m ´edio e fica clara uma separac¸ ˜ao entre t ´ecnico e m ´edio nos dados divulgados pelo Governo Brasileiro.

(21)

Em 2012 um relat ´orio desenvolvido pelo Programa das Nac¸ ˜oes Unidas para o De-senvolvimento (PNUD), classifica o Brasil como a terceira maior taxa de evas ˜ao no ensino m ´edio, entre os 100 pa´ıses com maior ´Indice de Desenvolvimento Humano (IDH), chegando a alcanc¸ar taxas de 24,3%(DE OLIVEIRA, 2017).

Assim, a evas ˜ao se tornou um problema de grandes proporc¸ ˜oes na educac¸ ˜ao bra-sileira e a criac¸ ˜ao de novas ferramentas que possam fornecer uma forma de aux´ılio aos educadores nessa tarefa se torna de suma import ˆancia. Desta forma, este tra-balho atrav ´es da minerac¸ ˜ao de dados educacionais tem como uma de suas metas a gerac¸ ˜ao de modelos de predic¸ ˜ao para identificac¸ ˜ao de estudantes de cursos t ´ecnicos a dist ˆancia que apresentem risco de evas ˜ao.

2.3

Minerac¸ ˜ao de Dados

Com o surgimento dos sistemas de informac¸ ˜ao o armazenamento de dados se tor-nou uma das prioridades das instituic¸ ˜oes. Para isso foram criadas bases de dados que cresceram de forma demasiadamente r ´apida, como podemos notar com maior eviden-cia nas ´ultimas d ´ecadas, seja pela reduc¸ ˜ao no prec¸o de aquisic¸ ˜ao dos equipamentos ou pela maior utilizac¸ ˜ao da comunidade em geral (CIOS; PEDRYCZ; SWINIARSKI, 1998).

Tabela 1: Quadro de evoluc¸ ˜ao da Minerac¸ ˜ao de Dados - Adaptado de VASCONCE-LOS; CARVALHO (2004) Etapa Evolucion ´aria Quest ˜ao Comercial Tecnologias Dispon´ıveis Fornecedores de Produtos Caracter´ısticas Colec¸ ˜ao de dados(1960s)

“Qual foi minha receita total nos ´ultimos cinco anos?”

Computadores, fitas e discos IBM, CDC Retrospectiva, distribuic¸ ˜ao de dados est ´atica Acesso a dados(1980s) “Quais foram as vendas unit ´arias de S ˜ao Paulo em marc¸o?” Bancos de dados relacionais(RDBMS), Structured Query Language (SQL),ODBC Oracle, Sybase, Informix, IBM, Microsoft Retrospectiva, distribuic¸ ˜ao de dados din ˆamica a n´ıvel de registros Data Warehousinge Suporte `a Decis ˜ao(1990s) “Quais foram as vendas unit ´arias de S ˜ao Paulo

em marc¸o? Avalie tamb ´em

Campinas.” On-Line Analytical Processing(OLAP) Pilot, Comshare, Arbor, Cognos, Microstrategy Retrospectiva, distribuic¸ ˜ao din ˆamica de dados m ´ultiplos n´ıveis Minerac¸ ˜ao de Dados

“Qual a previs ˜ao para as vendas de Campinas no pr ´oximo m ˆes? Porqu ˆe?” Algoritmos avanc¸ados, computadores multiprocessados, banco de dados massivos. Pilot, Lockheed, IBM, SGI, e outras (novas empresas) Prospectiva, distribuic¸ ˜ao de informac¸ ˜ao ativa.

Devido a essa melhora na tecnologia da informac¸ ˜ao e o crescimento da Internet, as organizac¸ ˜oes s ˜ao capazes de coletar e armazenar enormes quantidades de dados.

(22)

Para o armazenamento foram desenvolvidas diferentes estruturas de armazena-mento para as novas demandas que foram surgindo. Estas podem ser desde simples base de dados contendo o estoque de um super-mercado at ´e a indexac¸ ˜ao de grandes motores de busca como o Google.

Entre essas bases de dados podemos citar algumas que t ˆem um enorme tamanho como descritas por (BRAMER, 2013):

• Os sat ´elites de observac¸ ˜ao da NASA geram cerca de um terabyte de dados por dia;

• O projeto Genoma armazena milhares de bytes para cada uma das bilh ˜oes de bases gen ´eticas;

• Instituic¸ ˜oes mant ˆem reposit ´orios com milhares de transac¸ ˜oes dos seus clientes; Percebeu-se gradualmente que os dados n ˜ao s ˜ao iguais a informac¸ ˜ao, que os da-dos devem ser analisada-dos e extra´ıda-dos. Assim surgiu uma pergunta crucial ”Com o volume de dados armazenados crescendo diariamente, o que fazer com os dados armazenados?”(CAMILO; SILVA, 2009).

Mesmo com profissionais treinados para analisar e interpretar os dados, os aumen-tos na quantidade de dados, tipo de dados, e dimens ˜oes de an ´alise, t ˆem dificultado estas ac¸ ˜oes. A computac¸ ˜ao tem ido al ´em do armazenamento, transmiss ˜ao e proces-samento. Os dados precisam ser convertidos em informac¸ ˜ao e conhecimento para apoiar a tomada de decis ˜ao(PASTA, 2011).

Fazer com que os dados armazenados, seja em um grande Data Center ou em pe-quenos servidores, se transformem de simples c ´odigos sem sentido aparente em uma s ´erie de informac¸ ˜oes ´uteis ´e um dos principais desafios. Esse processo de descoberta pode fazer com que uma empresa simplesmente perca sua competitividade ou uma instituic¸ ˜ao de ensino deixe de formar in ´umeros alunos em um ano.

Com a interessante tarefa de descoberta de conhecimento nas bases de dados, tendo em vista que as t ´ecnicas tradicionais de explorac¸ ˜ao de dados n ˜ao s ˜ao mais ade-quadas para tratar a grande maioria dos reposit ´orios, foi proposta, no final da d ´ecada de 80, a Minerac¸ ˜ao de Dados, do ingl ˆes Data Mining. Assim a quest ˜ao levantada anteriormente pode ser respondida(CAMILO; SILVA, 2009).

Desta forma, a minerac¸ ˜ao de dados com suas tarefas e t ´ecnicas representa a fase principal Descoberta de Conhecimento em Bases de Dados, do ingl ˆes para Knowledge Discovery in Databases (KDD).

Alguns dos casos onde a minerac¸ ˜ao de dados pode auxiliar os processos de to-mada de decis ˜ao de forma satisfat ´oria s ˜ao citados por BRAMER (2013), OLSON; DE-LEN (2008), WITTEN et al. (2016) e CAMILO; SILVA (2009):

(23)

• Retenc¸ ˜ao de clientes: identificac¸ ˜ao de perfis para determinados produtos, venda cruzada;

• Bancos: identificar padr ˜oes para auxiliar no gerenciamento de relacionamento com o cliente;

• Cart ˜ao de Cr ´edito: identificar segmentos de mercado, identificar padr ˜oes de ro-tatividade;

• Cobranc¸a: detecc¸ ˜ao de fraudes;

• Telemarketing: acesso facilitado aos dados do cliente; • Eleitoral: identificac¸ ˜ao de um perfil para poss´ıveis votantes; • Medicina: indicac¸ ˜ao de diagn ´osticos mais precisos;

• Seguranc¸a: na detecc¸ ˜ao de atividades terroristas e criminais; • Aux´ılio em pesquisas biom ´etricas;

• RH: identificac¸ ˜ao de compet ˆencias em curr´ıculos [9];

• Tomada de Decis ˜ao: filtrar as informac¸ ˜oes relevantes, fornecer indicadores de probabilidade.

• Com ´ercio: Melhorar a disposic¸ ˜ao de seus produtos nas prateleiras, atrav ´es do padr ˜ao de consumo de seus clientes;

• Marketing: direcionar o envio de mensagens promocionais, obtendo melhores retornos;

Tradicionalmente o modelo de transformac¸ ˜ao dos dados em informac¸ ˜ao segundo FAYYAD; PIATETSKY-SHAPIRO; SMYTH (1996), consiste no processamento manual de todas essas informac¸ ˜oes por especialistas que produzem relat ´orios para an ´alise. Assim ele cita que com a sobre-carga de dados gerada pela era da informac¸ ˜ao esse processo de descoberta do conhecimento manual se tornou impratic ´avel, tanto pelo tempo demandado quanto pela dificuldade da tarefa, e a KDD surge como uma tenta-tiva de solucionar este problema.

A definic¸ ˜ao de KDD amplamente utilizada na ´area ´e dada por FAYYAD; PIATETSKY-SHAPIRO; SMYTH (1996):

(24)

KDD ´e um processo, n ˜ao trivial, de extrac¸ ˜ao de informac¸ ˜oes impl´ıcitas, previamente desconhecidas e potencialmente ´uteis, a partir dos dados armazenados em um banco de dados”.

Pode se dizer que o processo ´e n ˜ao trivial por termos t ´ecnicas de busca ou in-fer ˆencia envolvidas, ou seja, n ˜ao ´e apenas um processo de computac¸ ˜ao direta. Os padr ˜oes descobertos tem de ser v ´alidos com algum grau de certeza, novos (para o sistema e de prefer ˆencia tamb ´em para o usu ´ario), potencialmente ´uteis (trazer algum benef´ıcio) e compreens´ıveis (se n ˜ao imediatamente ent ˜ao depois da interpretac¸ ˜ao).

A gerac¸ ˜ao do conhecimento se d ´a atrav ´es de uma sequ ˆencia de etapas que exe-cutadas de forma correta podem resultar na gerac¸ ˜ao de conhecimento ´util. Estas eta-pas podem ser basicamente resumidas em 5: selec¸ ˜ao dos dados a serem utilizados; preparac¸ ˜ao para a utilizac¸ ˜ao atrav ´es de um tratamento pr ´evio (pr ´e-processamento); transformac¸ ˜ao para um formato adequado; o processamento do conjunto de dados por algoritmos especialistas (minerac¸ ˜ao de dados) e a an ´alise dos resultados obti-dos(FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Figura 3: Descoberta do conhecimento - KDD. Adaptado de FAYYAD; PIATETSKY-SHAPIRO; SMYTH (1996)

2.3.1 Selec¸ ˜ao dos dados

A etapa de selec¸ ˜ao dos dados possui um impacto significativo sobre a qualidade do resultado final e ´e a primeira no processo de descobrimento de informac¸ ˜ao, uma vez que nesta fase ´e escolhido o conjunto de dados contendo todas as poss´ıveis vari ´aveis tamb ´em conhecidas como caracter´ısticas ou atributos e registros tamb ´em chamados de casos ou observac¸ ˜oes que far ˜ao parte da an ´alise. Normalmente essa escolha dos dados fica a crit ´erio de um especialista do dom´ınio, ou seja, algu ´em que realmente entende do assunto em quest ˜ao(PRASS, 2004).

Segundo PRASS (2004), a selec¸ ˜ao ´e um processo complexo por tratar de dados que podem vir de diversas fontes, que podem ser desde planilhas at ´e sistemas lega-dos. Assim esses dados podem possuir diversos formatos, sendo comum que ocorra a necessidade de um software espec´ıfico para o tratamento destes dados, tamanha a peculiaridade envolvida na aplicac¸ ˜ao.

(25)

2.3.2 Pr ´e-processamento e limpeza dos dados

O Pr ´e-processamento e limpeza dos dados ´e a etapa onde s ˜ao efetuadas ta-refas como a verificac¸ ˜ao e eliminac¸ ˜ao das redund ˆancias e inconsist ˆencias das ba-ses, recuperac¸ ˜ao dos dados incompletos ou outliers que em estat´ıstica s ˜ao valores at´ıpicos, ´e uma observac¸ ˜ao que apresenta um grande afastamento das demais da s ´erie.

DUNKEL et al. (1997) cita como um dos problemas do pr ´e-processamento ´e a identificac¸ ˜ao dos dados inapropriados dentro do conjunto dispon´ıvel. Assim, tomar a atitude de classificar um dado com ruim ´e de grande complexidade e o aux´ılio de um especialista do dom´ınio ´e fundamental, pois na maioria dos casos apenas algu ´em que realmente entende do assunto ´e capaz de dizer se um dado ´e um outlier ou um erro de digitac¸ ˜ao.

Segundo HAN; PEI; KAMBER (2011) as t ´ecnicas de pr ´e-processamento podem ser divididas em:

• Limpeza dos dados (data cleaning); • Integrac¸ ˜ao de dados (data integration);

• Transformac¸ ˜ao de dados (data transformation); • Reduc¸ ˜ao de dados (data reduction);

2.3.2.1 Limpeza dos dados

A etapa de limpeza dos dados, ou data cleaning, ´e uma etapa de investigac¸ ˜ao visando detectar dados que estejam duplicados, incorretos e/ou faltantes(missing va-lues). Para corrigir isso HAN; PEI; KAMBER (2011) sugerem como soluc¸ ˜oes seguir as seguintes etapas:

• Ignorar os registros;

• Completar manualmente os valores faltantes; • Substituir por uma constante global;

• Uso da m ´edia para preencher os valores faltantes;

• Uso do valor mais prov ´avel, que pode ser predito com aux´ılio de uma regress ˜ao, ´arvores de decis ˜ao, entre outras.

(26)

Os outliers s ˜ao outro problema que ´e tratado nesta etapa do pr ´e-processamento. Estes valores podem ser detectados atrav ´es da an ´alise de agrupamento, onde os valores similares formam grupos, destacando-se os outliers SCHMITT (2005).

As mesmas soluc¸ ˜oes anteriormente citadas para o tratamento dos dados faltantes podem ser utilizadas para os outiliers com o cuidado para a exclus ˜ao, esta s ´o deve ser efetuada quando o dado representar algum erro, seja de medida ou algo similar. Assim n ˜ao comprometendo as etapas seguintes (SCHMITT, 2005).

2.3.2.2 Integrac¸ ˜ao dos dados

Como dito anteriormente, o processo de minerac¸ ˜ao ´e complexo e diversas vezes h ´a a necessidade de tratar dados vindos de diversas fontes diferentes. Para isto ´e ne-cess ´aria a etapa de integrac¸ ˜ao dos dados, seja manualmente ou automatizadamente atrav ´es de um sistema. Esta etapa pode acabar por ser extremamente demorada de-pendendo dos dados, alguns autores como FERNANDEZ (2010) chegam a estimar que dependendo da base essa etapa pode consumir at ´e mesmo 70% do tempo do projeto.

2.3.2.3 Transformac¸ ˜ao

Antes da fase onde acontece a efetiva minerac¸ ˜ao dos dados na KDD, os dados necessitam ser armazenados e formatados adequadamente para que os algoritmos possam ser aplicados.

Em alguns casos, dependendo do algoritmo utilizado ´e necess ´aria a transformac¸ ˜ao do tipo de dados, pois existem algoritmos que trabalham apenas com valores num ´ericos e outros apenas com valores categ ´oricos. Assim, pode ser necess ´aria a convers ˜ao dos dados de um tipo para outro.

Segundo PRASS (2004), nesta fase, se necess ´ario, ´e poss´ıvel obter dados fal-tantes atrav ´es da transformac¸ ˜ao ou combinac¸ ˜ao de outros, s ˜ao os chamados “dados derivados”. Um exemplo de um dado que pode ser calculado a partir de outro ´e a idade de um indiv´ıduo, que pode ser encontrada a partir de sua data de nascimento. Outro exemplo ´e o valor total de um financiamento que pode ser calculado a partir da multiplicac¸ ˜ao do n ´umero de parcelas pelo valor da parcela.

Quando a minerac¸ ˜ao de dados envolve a utilizac¸ ˜ao de algoritmos de redes neurais, autores como HAN; PEI; KAMBER (2011) aconselham a utilizac¸ ˜ao da transformac¸ ˜ao min-max, pois esta pode melhorar a efici ˆencia dos algoritmos. A transformac¸ ˜ao min-max ´e definida por: seja uma determinada vari ´avel A, com valores A1, A2, A3, A4, ..., An. Sendo o valor m´ınimo representado por minA e o valor m ´aximo representado por maxA e deseja-se transformar os valores em A1, A2, A3, A4, ..., An para valores em um intervalo [a,b], ent ˜ao os valores A1, A2, A3, A4, ..., An s ˜ao dados pela equac¸ ˜ao:

(27)

Figura 4: Descoberta do conhecimento - KDD. Adaptado de HAN; PEI; KAMBER (2011)

2.3.2.4 Reduc¸ ˜ao dos dados

Apesar de ser de dif´ıcil quantificac¸ ˜ao, muitas as vezes as bases de dados pos-suem dados que n ˜ao apresentam grande relev ˆancia para a minerac¸ ˜ao. A reduc¸ ˜ao da dimensionalidade destes dados pode diminuir o custo computacional da tarefa de minerac¸ ˜ao. Mesmo com o tempo de processamento diretamente ligado a vari ´aveis como o tamanho da base, a tarefa a ser realizada e o algoritmo a ser utilizado, tende-se em uma batende-se otimizada a contende-seguir um melhor custo benef´ıcio na vari ´avel tempo de processamento/resultado final (PRASS, 2004).

Diversos autores divergem sobre os processos utilizados para a reduc¸ ˜ao da base, mas podemos dizer que uma das teorias mais aceitas ´e a de HAN; PEI; KAMBER (2011) que utiliza a t ´ecnica de componentes principais (JOHNSON; WICHERN et al., 2002). Est ´a t ´ecnica consiste na identificac¸ ˜ao dos componentes de maior impacto na base atrav ´es de uso de estat´ıstica e seu isolamento, assim excluindo os componentes de pouco ou nenhum impacto.

2.3.3 Minerac¸ ˜ao de dados educacionais

Diversos trabalhos procuram modelar comportamentos de alunos de EAD com a intenc¸ ˜ao de realizar previs ˜oes sobre estes, e utilizando uma variedade de t ´ecnicas e bases de dados, em geral com resultados satisfat ´orios. Estas pesquisas geralmente se diferenciam nas t ´ecnicas utilizadas e no seu objetivo de previs ˜ao. Assim, alguns destes trabalhos s ˜ao voltados para a predic¸ ˜ao das notas dos alunos nas avaliac¸ ˜oes de uma determinada disciplina ou at ´e mesmo no curso todo, enquanto outros trabalhos visam `a predic¸ ˜ao da situac¸ ˜ao de evas ˜ao do aluno demonstrando se o mesmo est ´a ou n ˜ao em situac¸ ˜ao de risco de evas ˜ao.

Segundo ROMERO; VENTURA (2013), a maioria das t ´ecnicas tradicionais de minerac¸ ˜ao de dados incluindo, mas n ˜ao se limitando a classificac¸ ˜ao, agrupamento, e t ´ecnicas de an ´alise de associac¸ ˜ao j ´a foram aplicadas com ˆexito no dom´ınio da educac¸ ˜ao.

Grande parte das t ´ecnicas seguem a taxonomia proposta por BAKER; ISOTANI; CARVALHO (2011) e aceita por grande parte dos pesquisadores da ´area como Ro-mero, Ventura e Jayaprakash entre outros, da seguinte forma:

(28)

– Classificac¸ ˜ao – Regress ˜ao

– Estimac¸ ˜ao de densidade • Agrupamento

• Minerac¸ ˜ao de relac¸ ˜oes

– Minerac¸ ˜ao de regras de associac¸ ˜ao – Minerac¸ ˜ao de correlac¸ ˜oes

– Minerac¸ ˜ao de padr ˜oes sequenciais – Minerac¸ ˜ao de causas

• Destilac¸ ˜ao dos dados • Descobertas com modelos

Segundo BAKER; ISOTANI; CARVALHO (2011), na predic¸ ˜ao atrav ´es da an ´alise e fus ˜ao das informac¸ ˜oes contidas nos dados s ˜ao criados modelos que infiram carac-ter´ısticas e informac¸ ˜oes sobre esses dados, estas s ˜ao chamadas de vari ´aveis predi-tivas(predicted variables). Para isto ´e necess ´ario que se tenha uma quantidade rela-tiva de dados e que haja uma codificac¸ ˜ao manual da identificac¸ ˜ao de uma ou mais vari ´aveis.

Entre os 3 tipos de predic¸ ˜ao citados por BAKER; ISOTANI; CARVALHO (2011), os mais utilizados s ˜ao classificac¸ ˜ao e regress ˜ao, enquanto que estimac¸ ˜ao de densidade dificilmente ´e utilizado devido a depend ˆencia estat´ıstica dos dados. Os outros dois tipos de predic¸ ˜ao variam conforme a vari ´avel a ser prevista. Quando esta vari ´avel ´e num ´erica s ˜ao utilizados geralmente algoritmos de regress ˜ao linear e redes neu-rais. Enquanto que com vari ´aveis bin ´arias ou categ ´oricas s ˜ao utilizados algoritmos de classificac¸ ˜ao como ´arvores de decis ˜ao.

O agrupamento tem por objetivo a identificac¸ ˜ao de grupos de dados que apresen-tem semelhanc¸as entre si em alguma vari ´avel ou aspecto, assim auxiliando na tarefa de descoberta de novas informac¸ ˜oes. Geralmente os dados s ˜ao agrupados utilizando alguma medida de dist ˆancia que decide a semelhanc¸a entre os dados, uma vez feita esta etapa, os dados podem voltar a ser analisados pois podem ser gerados reagru-pamentos a partir dos anteriores (ROMERO; VENTURA, 2013).

Na EDM, o agrupamento pode ser utilizado para agrupar alunos, interac¸ ˜oes ou at ´e mesmo materiais. Assim esta etapa passa tanto pela descoberta da relac¸ ˜ao das

(29)

vari ´aveis como pela tentativa de aprendizado de quais vari ´aveis e valores tem um maior impacto sobre alguma outra vari ´avel que geralmente ´e a que se busca prever. No conceito taxon ˆomico de BAKER; YACEF (2009) existem 4 tipos de minerac¸ ˜ao dife-rentes usadas para identificar relac¸ ˜oes, sendo eles:

• Regras de associac¸ ˜ao; • Correlac¸ ˜oes;

• Sequ ˆencias; • Causas;

A minerac¸ ˜ao por regras de associac¸ ˜ao tem como premissa b ´asica a busca por vari ´aveis que tenham seu valor associado ao valor de outras vari ´aveis. Para isso utiliza-se se-ent ˜ao (if-then), assim quando uma vari ´avel assume um determina valor podemos inferir o valor da segunda vari ´avel.

Assim as regras de associac¸ ˜ao representam padr ˜oes existentes em transac¸ ˜oes armazenadas. Utilizando o exemplo de VASCONCELOS; CARVALHO (2004), a partir de uma base de dados, na qual registram-se os itens adquiridos por clientes, uma estrat ´egia de minerac¸ ˜ao, com o uso de regras de associac¸ ˜ao, poderia gerar a seguinte regra: cinto, bolsa ! sapato, a qual indica que o cliente que compra cinto e bolsa, com um determinado grau de confianc¸a, compra tamb ´em sapato. Este grau de certeza de uma regra ´e definido por dois ´ındices: o fator de suporte e o fator de confianc¸a.

Na minerac¸ ˜ao de correlac¸ ˜oes, o objetivo ´e encontrar correlac¸ ˜oes lineares entre as vari ´aveis. BAKER; ISOTANI; CARVALHO (2011) cita como exemplo um conjunto de dados educacionais que ap ´os onde busca-se identificar a nota de um aluno a partir do tempo gasto na aula por esse em tarefas n ˜ao relacionadas `as dadas pelo professor.

Em minerac¸ ˜ao de sequ ˆencias, busca-se encontrar uma associac¸ ˜ao temporal entre os eventos e o impacto deles nas vari ´aveis. Como exemplo BAKER; ISOTANI; CARVA-LHO (2011) cita a trajet ´oria dos atos e ac¸ ˜oes de um determinado aluno e o resultado de sua aprendizagem.

Na minerac¸ ˜ao de causas, a principal id ´eia ´e que se busquem identificar eventos que ocasionem outros eventos. Isso se d ´a atrav ´es da an ´alise de padr ˜oes de covari ˆancia. Como exemplo podemos citar o comportamento de um aluno em aula, muitas vezes seu comportamento inadequado est ´a ligado diretamente `a sua dificuldade de apren-dizagem. Assim um resultado ruim em determinadas tarefas pode representar na verdade um problema de aprendizagem (BAKER; ISOTANI; CARVALHO, 2011).

A destilac¸ ˜ao dos dados busca facilitar a compreens ˜ao de dados complexos e suas caracter´ısticas. Essa etapa possibilita que os dados sejam analisados e assim as pessoas os compreendam e identifiquem padr ˜oes sobre eles, auxiliando na tomada

(30)

de decis ˜oes. Um exemplo seria a curva de aprendizagem de um aluno, que s ˜ao representac¸ ˜oes matem ´aticas do desempenho de um estudante quando submetido a tarefas de ensino (ARGOTE, 1999). `A medida que as repetic¸ ˜oes s ˜ao efetuadas, o es-tudante demanda menos tempo para o aprendizado, seja pela familiaridade adquirida com os meios, seja pela adaptac¸ ˜ao `as ferramentas utilizadas ou pela descoberta de “atalhos” para realizac¸ ˜ao da tarefa (DAR-EL, 2013).

Segundo autores como Bevitt (BEVITT et al., 2015), o melhor per´ıodo para se for-necer ao aluno um feedback de seu poss´ıvel desempenho seria com duas semanas a partir do in´ıcio do semestre. Assim restando ao aluno mais tempo para uma mudanc¸a em seu comportamento e uma poss´ıvel melhora em seu desempenho acad ˆemico. 2.3.4 Aprendizagem de M ´aquina

Nesta sec¸ ˜ao ser ´a abordado o conceito de aprendizagem de m ´aquina e os algorit-mos utilizados nesta dissertac¸ ˜ao.

Desde de a invenc¸ ˜ao das m ´aquinas, a humanidade vem buscando formas para que elas imitem o comportamento humano em determinadas tarefas, seja por bonecos falantes ou at ´e mesmo rob ˆos que pratiquem esportes. Entretanto, com o surgimento dos computadores e o aumento da capacidade tanto de armazenamento quanto de processamento surgiu a ´area chamada de aprendizagem de m ´aquina.

A aprendizagem de m ´aquina ´e uma sub- ´area da Ci ˆencia da Computac¸ ˜ao, tendo como objetivo de pesquisa o desenvolvimento de t ´ecnicas e sistemas computacio-nais que adquiram conhecimento sobre determinados dados de forma aut ˆonoma. Es-ses sistemas s ˜ao algoritmos desenvolvidos para a predic¸ ˜ao de situac¸ ˜oes que possam ocorrer em determinados problemas a partir dos fatos ocorridos anteriormente em situac¸ ˜oes parecidas. Cada um destes algoritmos possui determinadas caracter´ısticas que podem possibilitar sua classificac¸ ˜ao quanto `a linguagem de descric¸ ˜ao, modo, pa-radigma e forma de aprendizagem(MONARD; BARANAUSKAS, 2003).

A aprendizagem geralmente ´e d´ıvida nas seguintes classificac¸ ˜oes: • Aprendizagem

– Aprendizagem Supervisionada ∗ Classificac¸ ˜ao

∗ Regress ˜ao

– Aprendizagem N ˜ao supervisionada ∗ Algoritmos de agrupamento

Em aprendizagem supervisionada existe um ”professor” que verifica as sa´ıdas dos algoritmos com o padr ˜ao de entradas atuais, assim fazendo alterac¸ ˜oes no algoritmo

(31)

para que as respostas fiquem o mais corretas poss´ıvel. Ou seja, observa-se alguns pares de exemplos de entrada e sa´ıda, de forma a aprender uma func¸ ˜ao que mapeia a entrada para a sa´ıda. Este tipo de aprendizagem ´e utilizado em algoritmos como redes ne ´urais por exemplo, onde cada ajuste de peso das sinapses s ˜ao voltados para ajustar a sa´ıda.

Em aprendizagem n ˜ao supervisionada, n ˜ao existe o ”professor”, pois nem sempre os conjuntos de dados de entrada tem a chamada sa´ıda. Assim os algoritmos v ˜ao lendo a entrada e tentando descobrir as sa´ıdas identificando os padr ˜oes sozinhos. Um dos exemplo disto s ˜ao os algoritmos de clusterizac¸ ˜ao que buscam descobrir si-milaridades e diferenc¸as entre os padr ˜oes existentes, assim como derivar conclus ˜oes

´uteis a respeito deles (HASTIE; TIBSHIRANI; FRIEDMAN, 2009).

A seguir apresentaremos os algoritmos que foram utilizados na pesquisa desen-volvida nesse trabalho.

2.3.4.1 Algoritmos Bayesianos

Baseado no teorema de Bayes, os algoritmos bayesianos em suas diversas for-mas s ˜ao modelos probabil´ısticos que buscam calcular a probabilidade de uma deter-minada vari ´avel pertencer a uma deterdeter-minada classe. Este m ´etodo ´e conhecido como predic¸ ˜ao estat´ıstica e ela faz parte da aprendizagem supervisionada(MARQUES; DU-TRA, 2002).

Os algoritmos baseanos s ˜ao baseados no teorema de Bayes, onde se indica que ´e poss´ıvel calcular a probabilidade de um determinado evento ocorrer dada a probabi-lidade de um outro evento que j ´a tenha ocorrido. Assim temos: Probabiprobabi-lidade(A dado B) = Probabilidade(A e B)/Probabilidade(A)

Figura 5: Formul ´a teorema de Bayes

Alguns experimentos demonstram que os algoritmos Bayesianos conhecidos como Naive Bayes podem obter resultados similares `as ´Arvores de Decis ˜ao e `as Redes Neu-rais, entretanto tem um custo computacional menor(ZHANG, 2004). Isso ´e uma de suas caracter´ısticas e geralmente associada a sua simplicidade mesmo assim guar-dando um alto pode preditivo, assim sendo um dos algoritmos mais utilizados (CA-MILO; SILVA, 2009).

Os algoritmos bayesianos tem como principal vantagem o fato de que agentes podem tomar decis ˜oes racionais mesmo quando n ˜ao existe informac¸ ˜ao suficiente para se provar que uma ac¸ ˜ao funcionar ´a(CHARNIAK, 1991).

(32)

2.3.4.2 Arvores de decis ˜ao - J48 e Random Forest´ ´

Arvores de decis ˜ao s ˜ao algoritmos de classificac¸ ˜ao supervisionada, pois neles ´e necess ´ario saber quais s ˜ao as classes de cada registro do conjunto de treinamento. Neste trabalho utilizamos dois algoritmos diferentes dessa t ´ecnica, J48 e Random Forest(Florestas aleat ´orias).

Esse tipo de algoritmo gera uma estrutura de ´arvore que que classifica as amos-tras desconhecidas. Para isso, utiliza os dados dos conjuntos de treinamento, criando uma ´arvore e a partir desta, classificando as amostras desconhecidas sem necessa-riamente testar todos os valores dos seus atributos(MICHALSKI; CARBONELL; MIT-CHELL, 2013).

Para este tipo de algoritmo ´e necess ´ario que ele sempre defina quais s ˜ao os ele-mentos desta ´arvore. Assim podemos fazer a analogia a uma ´arvore normal e ver os seus n ´os conectados `as ramificac¸ ˜oes.

Desta forma, existem basicamente tr ˆes tipos de n ´os: o n ´o raiz, que inicia a ´arvore, os n ´os comuns que dividem um determinado atributo e geram ramificac¸ ˜oes e os n ´os folha que cont ´em as informac¸ ˜oes de classificac¸ ˜ao do algoritmo. J ´a as ramificac¸ ˜oes possuem todos os valores poss´ıveis do atributo indicado no n ´o para facilitar a compre-ens ˜ao e interpretac¸ ˜ao(QUINLAN, 1986).

Com a ´arvore montada cada n ´o tem a tarefa de testar um atributo dos novos n ´os. Desta forma segundo PICHILIANI (2008), podemos dizer que o atributo que melhor classificar os dados deve ser escolhido como um n ´o da ´arvore. Para facilitar a com-preens ˜ao, ´e comum colocar os valores das probabilidades de cada classe dentro do n ´o.

A classificac¸ ˜ao de cada novo elemento da ´arvore ´e feita percorrendo os ramos e n ´os da ´arvore de acordo com os valores dos atributos da amostra desconhecida. Este algoritmo permite uma an ´alise mais detalhada levando em considerac¸ ˜ao cada valor de todos os atributos (PICHILIANI, 2008).

Na Figura 6 temos um conjunto de dados simples demonstrando se o dia ´e apto ou n ˜ao a pr ´atica de t ˆenis(RUSSELL; NORVIG, 2010):

(33)

Figura 6: Conjunto de dados

Na Figura 7 abaixo podemos ver a ´arvore que seria gerada a partir do dados do conjunto de treinamento anterior.

Figura 7: Exemplo de ´arvore

O algoritmo J48, baseado em ´arvores de decis ˜oes nada mais ´e que uma vers ˜ao do algoritmo C4.5 desenvolvida em Java e utilizada dentro da biblioteca do Weka. O C4.5 ´e um algoritmo utilizado para criar uma ´arvore de decis ˜ao e foi desenvolvido por QUIN-LAN (1993) C4.5 ´e uma extens ˜ao do algoritmo anterior de Quinlan o ID3. As ´arvores de decis ˜ao geradas pelo algoritmo C4.5 podem ser utilizadas para classificac¸ ˜ao e s ˜ao portanto conhecidas como classificadores estat´ısticos.

Utilizando a abordagem gulosa para induzir ´arvores de decis ˜ao para posterior classificac¸ ˜ao. O J48 gera ´arvores de decis ˜ao, em que cada n ´o da ´arvore avalia a exist ˆencia ou signific ˆancia de cada atributo individual. As ´arvores de decis ˜ao s ˜ao constru´ıdas do topo para a base, atrav ´es da escolha do atributo mais apropriado para cada situac¸ ˜ao (MARTINS; MARQUES; COSTA, 2009).

Ainda segundo MARTINS; MARQUES; COSTA (2009), uma vez que ´e escolhido o atributo, os dados de treino s ˜ao divididos em sub-grupos, correspondendo aos di-ferentes valores dos atributos e o processo ´e repetido para cada sub-grupo at ´e que

(34)

uma grande parte dos atributos em cada sub-grupo pertenc¸am a uma ´unica classe. A induc¸ ˜ao por ´arvore de decis ˜ao ´e um algoritmo que habitualmente aprende um con-junto de regras com elevada acuidade. Este algoritmo ´e escolhido para comparar a percentagem de acerto com outros algoritmos(QUINLAN, 1993).

O algoritmo Random Forest ´e uma t ´ecnica de classificac¸ ˜ao desenvolvida por BREI-MAN (2001). Nela diferentemente das ´arvores de decis ˜ao padr ˜ao, os dados s ˜ao div´ıdivos em diversos subconjuntos menores onde cada um deles s ˜ao criadas amos-tragens chamadas de bootstrap. Esse t ´ecnica chamada de bootstrap ´e utilizada para garantir que geralmente 1/3 dos exemplos sejam usados para testar as ´arvores ap ´os sua construc¸ ˜ao (HO, 1995).

Com os subconjuntos separados, ent ˜ao ´e desenvolvida uma ´arvore de decis ˜ao para cada um deles. Ent ˜ao a floresta aleat ´oria ´e a colec¸ ˜ao dessas ´arvores dos sub-conjuntos(HO, 1995).

2.3.4.3 Simple Logistic

O Simple Logistic ´e um classificador que utiliza modelos de regress ˜ao log´ıstica linear simples. Uma regress ˜ao log´ıstica simples ´e uma regress ˜ao log´ıstica de apenas um par ˆametro (AGRESTI; KATERI, 2011).

Regress ˜ao log´ıstica vem do fato de que a regress ˜ao linear tamb ´em pode ser usada para executar a classificac¸ ˜ao do problema, apenas transformando o alvo categ ´orico com valores cont´ınuos. A id ´eia de regress ˜ao log´ıstica ´e fazer com que a regress ˜ao linear produza probabilidades. Podemos dizer que ´e melhor predizer probabilidades de classe em vez de prever as classes em si. Assim a Regress ˜ao log´ıstica estima probabilidades das classe diretamente utilizando a transformada l ´ogica (AGRESTI; KATERI, 2011).

Para a regress ˜ao linear n ´os temos uma soma linear. Na regress ˜ao log´ıstica, esta soma linear ´e incorporada na f ´ormula conhecida como transformada l ´ogica. Essa transformada ´e um modelo de curva com formato de S que tem valores entre 0 e 1 (AGRESTI; KATERI, 2011).

Figura 8: Form ´ula da transformada l ´ogica

2.3.4.4 Redes Neurais

As redes neurais artificiais surgiram em 1943 como uma tentativa de criar um mo-delo matem ´atico que imitasse o comportamento de um neur ˆonio biol ´ogico

(35)

(MCCUL-LOCH; PITTS, 1943). Elas podem ser definidas como t ´ecnicas computacionais que apresentam um modelo matem ´atico inspirado na estrutura neural de organismos inte-ligentes e que adquirem conhecimento atrav ´es da experi ˆencia (CARVALHO, 2009).

As redes neurais artificiais basicamente s ˜ao formadas por um conjunto de ter-minais de entrada, tamb ´em conhecidos como camada de entrada, que repassam a informac¸ ˜ao para as camadas intermedi ´arias onde ocorre o processamento e uma ca-mada de sa´ıda, que ´e onde saem as informac¸ ˜oes processadas.

Essas redes podem ser compostas por v ´arias camadas de processamento de sim-ples funcionamento. Cada camada ´e conectada com a pr ´oxima e esta associada a um peso, assim cada neur ˆonio processa somente os dados que recebe em sua entrada e repassa o resultado para a camada seguinte.

Assim as Redes neurais artificias geralmente s ˜ao apresentadas como sistemas de neur ˆonios interconectados que podem computar valores de entradas (CARVALHO, 2009).

Figura 9: Modelo de uma rede neural - Adaptado de SEGATTO; COURY (2008) O tamanho das redes neurais pode variar de acordo com a tarefa a que ela ´e uti-lizada, assim variando de uma rede de um neur ˆonio at ´e centenas ou milhares (CAR-VALHO, 2009).

Para este trabalho foram utilizadas redes neurais de Perceptron Multi-Camadas (Multi Layer Perceptron - MLP). Este modelo de rede foi criado buscando sanar alguns problemas que existiam nas redes de uma ´unica camada por RUMELHART; HINTON; WILLIAMS (1985).

(36)

Neste novo modelo de rede foi feita a inclus ˜ao de camadas intermedi ´arias de neur ˆonios e de um algoritmo de aprendizagem por retro-propagac¸ ˜ao (back-propagation). Nesse modelo de rede todos os neur ˆonios de uma camada est ˜ao li-gados a todos os neur ˆonios das camadas anterior e posterior. Assim foi poss´ıvel um treinamento eficiente, pois cada camada tem uma func¸ ˜ao espec´ıfica.

2.3.5 Ferramentas para minerac¸ ˜ao de dados

Hoje a minerac¸ ˜ao de dados ´e mais importante do que nunca para as instituic¸ ˜oes, sejam elas grandes ou pequenas, se querem alavancar seus produtos ´e necess ´ario a minerac¸ ˜ao de dados para lhes fornecer um subs´ıdio para as tomadas de decis ˜oes buscando uma vantagem competitiva.

Com a adoc¸ ˜ao de t ´ecnicas bem estabelecidas, ferramentas e recorrendo `a ajuda de especialistas em minerac¸ ˜ao de dados, as ac¸ ˜oes baseadas em evid ˆencias de da-dos e an ´alises avanc¸adas t ˆem melhores chances de aumentar a otimizac¸ ˜ao de seus produtos e facilitar o crescimento de seu neg ´ocio, seja ele a venda de produtos ou um instituic¸ ˜ao de ensino que quer minimizar os efeitos da evas ˜ao em seus cursos (GUPTA, 2014).

Atualmente as ferramentas de minerac¸ ˜ao de dados dispon´ıveis na Web s ˜ao abun-dantes. Sendo que a maioria dos fornecedores oferece uma demonstrac¸ ˜ao, freeware ou ambos para ajud ´a-lo a determinar qual ferramenta para minerac¸ ˜ao ´e melhor para os seus dados. Podemos destacar algumas como RapidMiner, RProgramming, Orange, Knime, NLTK, Oracle Data Mining, SAS, Cognos e o Weka.

Neste trabalho, optou-se pela utilizac¸ ˜ao do WEKA (Waikato Environment for Kno-wledge Analysis), na vers ˜ao 3.9.0, que ´e desenvolvida por universit ´arios da Universi-dade de Waikato, na Nova Zel ˆandia. A escolha deste software se motivou por alguns fatores como facilidade de utilizac¸ ˜ao, obtenc¸ ˜ao direta da p ´agina do desenvolvedor sem custos, n ´umero consider ´avel de algoritmos dispon´ıveis para utilizac¸ ˜ao junto com a pos-sibilidade de alterac¸ ˜ao dos par ˆametros de execuc¸ ˜ao dos mesmos e a pospos-sibilidade de f ´acil comparac¸ ˜ao entre os algoritmos testados.

O Weka ´e uma ferramenta baseada em Java e de c ´odigo aberto, sob a GNU Gene-ral Public License, e que possui dois tipos de utilizac¸ ˜ao prim ´arios, um pela sua inter-face gr ´afica e outra em pacote de classes em Java. Ele teve sua primeira vers ˜ao de-senvolvida em 1999 principalmente para analisar dados agr´ıcolas(HALL et al., 2009).

Alguns dos principais atributos do Weka s ˜ao o pr ´e-processamento de dados, a visualizac¸ ˜ao e an ´alise preditiva, al ´em de t ´ecnicas de modelagem, clustering, agrupa-mento, associac¸ ˜ao, regress ˜ao e classificac¸ ˜ao.

Na utilizac¸ ˜ao da interface gr ´afica ´e poss´ıvel a interac¸ ˜ao com os dados, entretanto uma das restric¸ ˜oes dessa utilizac¸ ˜ao ´e o limite de tamanho das bases, o que n ˜ao permiti o uso de quantidades elevadas de dados, e n ˜ao tem suporte a utilizac¸ ˜ao de threads

(37)

por exemplo. J ´a na utilizac¸ ˜ao na classe em Java, esta pode ser importada em um projeto de aplicac¸ ˜ao e customizada para o uso conforme a vontade de desenvolvedor, o que ´e uma grande vantagem em relac¸ ˜ao por exemplo ao RapidMiner.

Neste projeto foram utilizadas os dois tipos de implementac¸ ˜ao do Weka. Para os testes iniciais foi utilizado o aplicativo do pr ´oprio Weka e sua interface visual. Entre-tanto conforme os testes foram avanc¸ando e a base de dados foi aumentando subs-tancialmente, optamos pelo desenvolvimento de um software pr ´oprio na tentantiva de automatizar algumas etapas do projeto, possibilidade de uma maior customizac¸ ˜ao dos testes, suporte ao processamento paralelo e assim consequentemente agilidade na gerac¸ ˜ao dos modelos, suporte a alta quantidade de dados do projeto e a integrac¸ ˜ao com um banco de dados externo (BOUCKAERT et al., 2010).

Segundo HALL et al. (2009), o Weka em seu aplicativo pode ser utilizado de diver-sas formas, em func¸ ˜ao do mesmo possuir quatro diferentes interfaces implementadas acess´ıveis atrav ´es de sua tela inicial, que s ˜ao elas:

1. Explorer: Nesta interface s ˜ao aplicadas as tarefas e t ´ecnicas de MD sobre a base de dados;

2. Experimenter: Esta interface ´e ´util para a aplicac¸ ˜ao de um ou mais t ´ecnicas de classificac¸ ˜ao sobre uma grande base de dados e em seguida fazer comparac¸ ˜oes estat´ısticas sobre elas;

3. Knowledge-flow: Esta ´e considerada a interface que mais apresenta o funciona-mento da ferramenta, uma vez que tem sua representac¸ ˜ao de forma gr ´afica; 4. Simple client: Esta interface oferece um local para inserc¸ ˜ao de comandos.

Mesmo possuindo uma apar ˆencia considerada simples, ´e nela que realiza qual-quer operac¸ ˜ao suportada pelo WEKA.

Os formatos de arquivos que o Weka trabalha s ˜ao somente 2, CSV(Comma-separated values) ou ARFF(Attribute Relation File Format). Segundo REPICI (2010), Comma-separated values tamb ´em conhecido como CSV, s ˜ao arquivos texto de for-mato regulamentado pelo RFC 4180 que faz uma ordenac¸ ˜ao de bytes ou um forfor-mato de terminador de linha. Enquanto que ARFF ´e um formato de arquivo pr ´oprio do Weka onde est ˜ao contidas informac¸ ˜oes como: a definic¸ ˜ao do dom´ınio dos atributos e as inst ˆancias, que representam os dados que ser ˜ao trabalhados(HALL et al., 2009).

Neste projeto foram utilizados somente arquivos ARFF, isso se deu por uma opc¸ ˜ao de desenvolvimento do projeto. Uma das propriedades deste tipo de arquivo que pe-sou na selec¸ ˜ao de trabalharmos somente com Attribute Relation File Format, foi o fato de o Weka ter menos problemas na interpretac¸ ˜ao desse arquivo.

Os arquivos ARFF s ˜ao compostos por uma estrutura de tr ˆes partes conforme defi-nida por PASTA (2011), sendo eles:

(38)

1. Cabec¸alho;

2. Declarac¸ ˜ao dos atributos; 3. Sec¸ ˜ao de dados.

A declarac¸ ˜ao dos atributos ´e feita no cabec¸alho, sendo um atributo por linha. Os tipos de atributos a que o Weka tem suporte s ˜aoPASTA (2011):

1. Num ´erico: trabalhando com n ´umeros reais e decimais; 2. Inteiros: n ´umeros sem decimais;

3. Datas;

4. String: com ressalva para a substituic¸ ˜ao de espac¸os em branco por underline; 5. Enumerados: nos quais os tipos s ˜ao previamente definidos pelo usu ´ario, Ex.:

Sexo Masc, Fem.

(39)

No c ´odigo listado no Anexo B, podemos ver uma parte da utilizac¸ ˜ao do Weka via seu pacote de classes para Java. Este trecho de c ´odigo foi retirado de uma das aplicac¸ ˜oes iniciais utilizando o algoritmo Bayesnet, uma base de dados em ARFF, utiliza classificadores e fez parte dos experimentos onde o treino e o teste das bases de dados eram efetuados juntos utilizando validac¸ ˜ao cruzada.

(40)

Agora apresentaremos algumas das pesquisas de relev ˆancia na ´area de minerac¸ ˜ao de dados educacionais e os resultados obtidos pelas mesmas.

3.1

Descric¸ ˜ao dos trabalhos relacionados

No experimento de JAYAPRAKASH et al. (2014), busca-se criar um sistema de alerta de risco quanto ao desempenho do aluno, a fim de diminuir as taxas de evas ˜ao e retenc¸ ˜ao escolares, fornecendo ao aluno um feedback atualizado de seu poss´ıvel rendimento escolar. Para isto ele utiliza dados demogr ´aficos como sexo e idade, interac¸ ˜oes dos alunos com o ambiente virtual de aprendizagem, desempenho acad ˆemico anterior, tempo na universidade, tempo online no ambiente virtual, dados do teste de aptid ˜ao escolar (SAT Verbal e Matem ´atico), entre outros. Assim anali-sando dados de 9938 alunos e aplicando ´arvores de decis ˜ao com o algoritmo J48, redes Bayesianas com o Naive Bayes, M ´aquinas de suporte Vetorial com o SVM/SMO e regress ˜ao log´ıstica. Na tarefa de predic¸ ˜ao todos algoritmos apresentaram resultados muito pr ´oximos, tendo o classificador de regress ˜ao log´ıstica apresentado resultados ligeiramente maiores que os outros 3 com 94,20% de acur ´acia geral e 66,70% de precis ˜ao na predic¸ ˜ao de alunos em risco de evas ˜ao.

LYKOURENTZOU et al. (2009), prop ˜oe um sistema de predic¸ ˜ao de alunos em situac¸ ˜ao de risco de evas ˜ao que combine os resultados da aplicac¸ ˜ao de 3 algorit-mos diferentes, sendo eles, Redes Neurais, M ´aquinas de suporte vetorial e sequ ˆencia m´ınima de otimizac¸ ˜ao (SVM/SMO) e conjunto probabil´ıstico simplificado Fuzzy ART-MAP (PESFAM). Em sua pesquisa o autor utiliza dados demogr ´aficos invariantes no decorrer do curso como sexo e resid ˆencia, al ´em de dados acad ˆemicos como perfor-mance e n´ıvel escolar, e dados variantes como n ´umero de interac¸ ˜oes com o ambiente virtual, notas e at ´e mesmo a data da entrega dos trabalhos. Com a aplicac¸ ˜ao dos algoritmos s ˜ao criados 3 esquemas diferentes buscando a predic¸ ˜ao da evas ˜ao, onde no primeiro um estudante ´e considerado evadido se pelo menos uma t ´ecnica classifi-cou este estudante como tal, no segundo o estudante ´e considerado evadido se pelo

Referências

Documentos relacionados

Devido a demanda tecnológica das empresas de pequeno porte e as tendências de Serviços Convergentes, muitas empresas necessitam se adaptar ao novo modelo

Mineração de conhecimento interativa em níveis diferentes de abstração: Como é  difícil  prever  o  que  exatamente  pode  ser  descoberto  de  um  banco 

a) Sistema de produto: produção integrada: soja, capim e algodão. O capim é cultivado como espécie formadora de palha; não é colhido ou pastejado, correspondendo, portanto, a um

A presença do brometo na composição química das zeólitas modificadas também foi detectada;  O processo de adsorção do surfactante sobre a superfície do material zeolítico

O mecanismo de competição atribuído aos antagonistas como responsável pelo controle da doença faz com que meios que promovam restrições de elementos essenciais ao desenvolvimento

Objetivo: Garantir estimativas mais realistas e precisas para o projeto, ao considerar nesta estimativa o esforço necessário (em horas ou percentual do projeto) para

O estudo múltiplo de casos foi aplicado para identificar as semelhanças e dissemelhanças na forma como as empresas relacionam seus modelos de negócios e suas

Se você vai para o mundo da fantasia e não está consciente de que está lá, você está se alienando da realidade (fugindo da realidade), você não está no aqui e