Mineração de dados aplicada à classificação do risco de evasão de discentes ingressantes em instituições federais de ensino superior

(1)

MARCELO GOMES DO AMARAL

MINERAÇÃO DE DADOS APLICADA À CLASSIFICAÇÃO DO

RISCO DE EVASÃO DE DISCENTES INGRESSANTES EM

INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR

Dissertação de Mestrado Profissional

RECIFE

2016

(2)

MARCELO GOMES DO AMARAL

MINERAÇÃO DE DADOS APLICADA À CLASSIFICAÇÃO DO

RISCO DE EVASÃO DE DISCENTES INGRESSANTES EM

INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR

Trabalho apresentado à pós-graduação

em Ciência da Computação do Centro de

Informática (CIn) da Universidade Federal

de Pernambuco (UPFE) como requisito

parcial para obtenção do título de mestre

em Ciência da Computação.

Orientador: Prof. Dr. Fernando da Fonseca de Souza

RECIFE 2016

(3)

(4)

(5)

Dedico este trabalho à Luíza que, para mim, acima de tudo, representa a motivação para começar, continuar e concluir tudo que faço.

(6)

Em primeiro lugar, agradeço ao Centro de Informática da Universidade

Federal de Pernambuco e todos os envolvidos neste programa de

pós-graduação, em especial os que, na qualidade de organizadores deste

mestrado, tornaram possível a condução desta pesquisa. Agradeço também

aos professores que ajudaram de alguma forma na construção do

conhecimento empregado na elaboração desta dissertação. Em especial,

agradeço ao meu orientador Prof. Dr. Fernando Fonseca, pelo acolhimento

inicial e tempo desprendido auxiliando na definição dos detalhes do escopo da

pesquisa proposta. Sem a credibilidade por ele depositada na minha pessoa

este trabalho não teria ocorrido. Agradeço também pelas sempre cuidadosas

correções e sugestões oferecidas. Agradeço aos familiares e amigos pela

compreensão do tempo que estive ausente durante elaboração desta pesquisa.

Por fim, reforço que, sem o apoio de todos os aqui mencionados e alguns que

(7)

As Instituições Federais de Ensino Superior (IFES) possuem um

importante papel no desenvolvimento social e econômico do país, contribuindo

para o avanço tecnológico e cientifico e fomentando investimentos. Nesse

sentido, entende-se que um melhor aproveitamento dos recursos educacionais

ofertados pelas IFES contribui para a evolução da educação superior, como um

todo. Uma maneira eficaz de atender esta necessidade é analisar o perfil dos

estudantes ingressos e procurar prever, com antecedência, casos indesejáveis

de evasão que, quanto mais cedo identificados, melhor poderão ser estudados

e tratados pela administração. Neste trabalho, propõe-se a definição de uma

abordagem para aplicação de técnicas diretas de Mineração de Dados

objetivando a classificação dos discentes ingressos de acordo com o risco de

evasão que apresentam. Como prova de conceito, a análise dos aspectos

inerentes ao processo de Mineração de Dados proposto se deu por meio de

experimentações conduzidas no ambiente da Universidade Federal de

Pernambuco (UFPE). Para alguns dos algoritmos classificadores, foi possível

obter uma acurácia de classificação de 73,9%, utilizando apenas dados

socioeconômicos disponíveis quando do ingresso do discente na instituição,

sem a utilização de nenhum dado dependente do histórico acadêmico.

Palavras-chave: Descoberta de Conhecimento em Bancos de Dados. Mineração de Dados Educacionais. Algoritmos de Classificação.

(8)

The Brazilian's Federal Institutions of Higher Education have an

important role in the social and economic development of the country,

contributing to the technological and scientific advances and encouraging

investments. Therefore, it is possible to infer that a better use of the educational

resources offered by those institutions contributes to the evolution of higher

education as a whole. An effective way to meet this need is to analyze the

profile of the freshmen students and try to predict, as soon as possible,

undesirable cases of dropout that when earlier identified can be examined and

addressed by the institution's administration. This work propose the

development of a approach for direct application of Data Mining techniques to

classify newcomer students according to their dropout risk. As a viability proof,

the proposed Data Mining approach was evaluated through experimentations

conducted in the Federal University of Pernambuco. Some of the classification

algorithms tested had an classification accuracy of 73.9% using only

socioeconomic data available since the student's admission to the institution,

without the use of any academic related data.

Keywords: Knowledge Discovery in Databases. Educational Data Mining. Classification Algorithms.

(9)

Figura 1.1 - Etapas da metodologia de trabalho ... 18

Figura 2.1 - Comparação da Evolução das Matrículas ... 26

Figura 2.2 - Comparativo da Utilização de Metodologias de MD ... 40

Figura 2.3 - Etapas do processo CRISP-DM ... 44

Figura 4.1 - Etapas da abordagem proposta ... 56

Figura 4.2 - Importação dos dados no Orange ... 93

Figura 4.3 - Configuração dos atributos no Orange ... 95

Figura 4.4 - Fluxograma do modelo de mineração ... 97

Figura 4.5 - Visualização individual dos registros classificados ... 100

Figura 4.6 - Etapas da abordagem proposta ... 101

Figura 4.7 - Probabilidades de classificação ... 103

(10)

Quadro 2.1 - Evolução das Matrículas no Ensino Superior ... 25

Quadro 3.1 - Resumo dos trabalhos analisados ... 53

Quadro 4.1 - Estrutura da tabela siga_situacao_academica ... 74

Quadro 4.2 - Estrutura da tabela siga_tipo_situacao_acacademica ... 74

Quadro 4.3 - Conteúdo da tabela siga_tipo_situacao_academica ... 75

Quadro 4.4 - Atributos selecionados para extração ... 83

Quadro 5.1 - Resultados do experimento nº 1 ... 108

(11)

SUMÁRIO ... 10 1. INTRODUÇÃO ... 12 1.1 APRESENTAÇÃO ... 13 1.2 MOTIVAÇÃO ... 14 1.3 PROBLEMA ... 16 1.4 OBJETIVOS ... 16 1.5 METODOLOGIA ... 17 1.6 ESTRUTURA DA DISSERTAÇÃO ... 19 2. FUNDAMENTAÇÃO TEÓRICA ... 21 2.1 CONTEXTUALIZAÇÃO DO NEGÓCIO ... 22

2.2 CENÁRIO DA EDUCAÇÃO SUPERIOR NO BRASIL ... 23

2.3 CONHECENDO O PROBLEMA DA EVASÃO ... 28

2.4 INTRODUÇÃO À MINERAÇÃO DE DADOS ... 30

2.5 OBJETIVOS DA MINERAÇÃO DE DADOS ... 33

2.6 TÉCNICAS PARA MINERAÇÃO DE DADOS ... 34

2.7 ALGORITMOS PARA MINERAÇÃO DE DADOS ... 37

2.8 METODOLOGIAS PARA MINERAÇÃO DE DADOS ... 39

2.9 CONSIDERAÇÕES FINAIS ... 45

3. TRABALHOS RELACIONADOS ... 46

3.1 CONSIDERAÇÕES INICIAIS ... 47

3.2 BAKER; ISOTANI; CARVALHO (2011) ... 48

3.3 RIGO; CAZELLA; CAMBRUZZI (2012) ... 49

3.4 SANTOS; SIEBRA; OLIVEIRA (2014) ... 50

3.5 MACHADO ET AL (2015) ... 51

3.6 MANHÃES (2015)... 52

4. ABORDAGEM PROPOSTA ... 54

4.2 DEFINIÇÃO DOS OBJETIVOS ... 59

4.3 APRESENTAÇÃO DAS FERRAMENTAS ... 67

4.4 COMPREENSÃO E SELEÇÃO DOS DADOS ... 70

4.5 PREPARAÇÃO E TRANSFORMAÇÃO DOS DADOS ... 88

4.6 IMPORTAÇÃO DOS DADOS NA FERRAMENTA ... 92

4.7 CONSTRUÇÃO DO MODELO PARA MINERAÇÃO ... 96

5. RESULTADOS ... 104

5.2 PRIMEIRO EXPERIMENTO PROPOSTO ... 107

5.3 SEGUNDO EXPERIMENTO PROPOSTO ... 109

5.4 TERCEIRO EXPERIMENTO PROPOSTO ... 111

(12)

5.7 ANÁLISE DOS RESULTADOS ... 116 5.8 CONSIDERAÇÕES FINAIS ... 119 6. CONCLUSÕES ... 120 6.1 CONTRIBUÍÇÕES ... 121 6.2 LIMITAÇÕES ... 122 6.3 CONSIDERAÇÕES FINAIS ... 123 6.4 TRABALHOS FUTUROS ... 126 REFERÊNCIAS ... 128

(13)

1. INTRODUÇÃO

Neste capítulo serão apresentadas as considerações iniciais acerca do

(14)

1.1 APRESENTAÇÃO

A evasão é uma preocupante realidade enfrentada pelo ensino superior

brasileiro, seja ele de natureza pública ou privada (LOBO, 2012). Dada a

significativa contribuição das Instituições Federais de Ensino Superior (IFES)

na viabilização da educação superior do país, fica clara a importância do

combate à evasão no âmbito das mesmas. No contexto das IFES, a evasão

representa um grave problema, pois reflete também o não aproveitamento dos

recursos públicos investidos na formação e capacitação da população.

Podendo as IFES, já no momento do ingresso do discente na instituição,

usufruir de algum instrumento que permita classificar, ainda que de forma

preliminar, o risco de evasão daquele discente, ações preventivas poderiam ser

tomadas visando uma maior eficiência na atuação da instituição e também

contribuindo para a evolução da educação superior, como um todo. A oferta de

subsídios desta natureza é possível por meio da Mineração de Dados (MD), um

campo de pesquisa emergente, com importantes aplicações para a engenharia,

ciência, medicina e, principalmente, educação (GARG; SHARMA, 2013).

Técnicas de MD podem ser usadas para garimpar padrões significativos,

porém visualmente indetectáveis ou incompreensíveis. Estes padrões podem,

então, ser convertidos em conhecimento. Cada negócio se beneficia da análise

de seus próprios dados (HAN; KAMBER; PEI, 2011), mas não existe uma

abordagem única que resolva todos os problemas da MD, o que torna a

escolha do método dependente do caso (DIAS, 2001). Neste trabalho

(15)

1.2 MOTIVAÇÃO

O investimento de recursos públicos em tecnologias inovadoras, que

visem a obtenção de diferenciais competitivos, nem sempre é vista com bons

olhos pela sociedade. Isto se deve, em parte, devido à precipitada conclusão

de que as instituições públicas, ao contrário do que ocorre com as empresas

privadas, não precisam investir em inovação e tecnologia como forma de

constituir vantagem competitiva perante a concorrência. Este posicionamento

é, em parte, responsável pela atual situação precária de algumas IFES.

Este raciocínio vai de encontro à ideia de que o resultado econômico

pode ser considerado a melhor medida de eficácia para qualquer tipo de

entidade, inclusive, para instituições de ensino públicas (SANTOS, 2002).

Desta forma, tem-se que a aplicação de técnicas de Mineração de Dados

Educacionais para tratamento da evasão, conforme proposto neste trabalho,

resulta numa melhor gestão dos recursos educacionais ofertados pelas IFES

caracterizando, assim, uma resposta sustentável ao problema.

Esta abordagem permite que as instituições utilizem dados que já

possuem para tratamento de problemas que afetam tanto a administração da

instituição como do país. A evasão é um problema complexo que, quanto mais

cedo for tratado, maior é a chance de sucesso (LOBO, 2012). Por esta razão, a

abordagem aqui proposta apresenta como principal diferencial a identificação

do risco de evasão do discente já no momento do ingresso do mesmo na

instituição, contribuindo para a evolução desta área de pesquisa notoriamente

(16)

No que diz respeito à Mineração de Dados, é importante mencionar que

diferentes métodos atendem diferentes propósitos e cada método oferece

vantagens e desvantagens que tornam sua escolha dependente do que se

espera obter como resultado após sua aplicação (DIAS, 2001). É neste sentido

que a definição de uma abordagem específica, direcionada para identificação

da evasão no contexto das IFES é relevante, do ponto de vista técnico.

Ainda em relação à proposição de um abordagem específica, tem-se

que certos aspectos particulares precisam ser definidos visando a adequação

da atividade de mineração ao cenário escolhido e aos resultados desejados

(DIAS, 2001). Em adição, é essencial a verificação da viabilidade da

abordagem, frente às limitações impostas por cada cenário específico.

O processo de definição de uma abordagem específica aqui proposto

passa pelo estudo do ambiente escolhido, com foco na compreensão das suas

regras de negócio e particularidades. Esta etapa é importante pois permite a

identificação dos atributos, isto é, das informações acerca dos discentes

ingressantes que devem ser utilizadas para submissão aos algoritmos

classificadores, visando a predição da ocorrência da evasão.

Em adição, do ponto de vista técnico, também é relevante para a

Mineração de Dados, a identificação dos algoritmos que oferecem os melhores

resultados com base nas informações a eles submetidas. O desempenho dos

algoritmos classificadores da Mineração de Dados pode variar de acordo com

sua capacidade de adequação aos dados fornecidos. Desta forma, a seleção

do algoritmo adequado não depende apenas do objetivo da aplicação, mas

(17)

1.3 PROBLEMA

Este trabalho procura responder à questão: "É viável aplicar técnicas de

Mineração de Dados para classificação do risco de evasão de discentes

ingressantes em Instituições Federais de Ensino Superior utilizando apenas

dados disponíveis no momento do ingresso do candidato na instituição?".

1.4 OBJETIVOS

De uma forma geral, este trabalho propõe a definição de uma

abordagem para Mineração de Dados que possa ser aplicada no ambiente das

Instituições Federais de Ensino Superior, com base nas particularidades do

ambiente escolhido, objetivando a classificação do risco de evasão dos

discentes ingressantes, de modo a oferecer subsídios à administração das

instituições para que estas possam propor ações para tratamento da evasão.

Já de uma forma mais específica, é possível citar os seguintes objetivos:

I. Compreender as regras de negócio inerentes ao cenário escolhido para

mineração, identificando as necessidades existentes;

II. Definir as estratégias para identificação e extração dos dados utilizados

para treinamento e teste dos algoritmos de mineração;

III. Selecionar as ferramentas e técnicas a serem utilizadas no processo de

preparação dos dados e aplicação dos algoritmos; e

IV. Avaliar a viabilidade da abordagem proposta por meio da análise dos

(18)

1.5 METODOLOGIA

Do ponto de vista científico, este trabalho adota uma metodologia de

pesquisa conforme descrita a seguir. É importante ressaltar que a metodologia

leva em consideração os objetivos definidos para este trabalho, isto é, a

proposição de uma abordagem para Mineração de Dados capaz de identificar

preliminarmente discentes ingressantes em Instituições Federais de Ensino

Superior com elevado risco de abandonar o sistema de ensino.

Desta forma, tem-se que a etapa que antecede a metodologia de

pesquisa proposta, consiste no estudo acerca do ambiente no qual o processo

de Mineração de Dados será conduzido, visando a compreensão de suas

particularidades. Este processo se dá durante a fundamentação teórica, por

meio da apresentação de um panorama geral acerca da educação superior no

país. A compreensão do contexto do negócio é prática recomendada para

Mineração de Dados (CHAPMAN et al., 2000). O objetivo é descobrir quais os

problemas que existem atualmente na área pesquisada e quais deles podem

ser tratados por meio da MD aplicada aos dados disponíveis.

Atendidos os pré-requisitos em relação ao estudo do ambiente onde

ocorrerá a Mineração de Dados, a próxima etapa da metodologia consiste na

escolha de um modelo genérico de Mineração de Dados que será utilizado

como base na construção da abordagem proposta. O modelo escolhido foi o

CRISP-DM, acrônimo para Cross Industry Standard Process for Data Mining. Trata-se de um modelo de processo proposto especificamente para a tarefa de

(19)

Em seguida, as etapas do modelo selecionado foram adaptadas para o

contexto escolhido com base nas particularidades do ambiente e dos

problemas que foram identificados. O modelo foi então aplicado no ambiente

selecionado para validação e testes, isto é, o ambiente da Universidade

Federal de Pernambuco (UFPE). Por fim, ocorreu a descrição do processo, que

caracteriza a apresentação da abordagem proposta e a definição dos

experimentos utilizados para avaliação da viabilidade da mesma, por meio da

análise dos resultados obtidos, tudo conforme mostra a Figura 1.1.

Figura 1.1 - Etapas da metodologia de trabalho

(20)

Do ponto de vista científico, tem-se que a viabilidade da abordagem

proposta é avaliada por meio do processo de experimentação, conforme

definido nas etapas da metodologia apresentada na Figura 1.1. Para tanto

foram definidos alguns experimentos, de acordo com as duas diretrizes abaixo.

 Avaliação da abordagem proposta em cenários específicos, com e sem

limitação do tamanho da amostra de dados utilizada para treinamento e

teste dos algoritmos classificadores, objetivando observar o

comportamento dos resultados obtidos em cada cenário e;

 Verificação dos resultados obtidos em cada experimento por meio da

replicação do mesmo com técnicas de amostragem distintas. As

técnicas de amostragem atuam na divisão dos dados de treinamento e

teste. Mais detalhes sobre as mesmas serão apresentados a seguir.

Os resultados dos experimentos conduzidos irão servir de guia para

avaliação do desempenho da abordagem proposta. A acurácia de classificação

com a qual os algoritmos são capazes de identificar corretamente os casos de

evasão, por meio do processo instituído na abordagem definida representa o

indicativo que valida ou não o desempenho do processo apresentado. Os

índices serão comparados com os obtidos por trabalhos semelhantes.

1.6 ESTRUTURA DA DISSERTAÇÃO

Do ponto de vista estrutural, esta dissertação está organizada em seis

(21)

 O Capítulo I corresponde à introdução do trabalho e apresenta as

considerações iniciais sobre a pesquisa proposta;

 O Capítulo II corresponde à fundamentação teórica e apresenta os

aspectos técnicos inerentes ao tema abordado;

 O Capítulo III corresponde aos trabalhos relacionados e apresenta uma

série de pesquisas similares para justificativa e contextualização;

 O Capítulo IV corresponde à abordagem proposta e apresenta, passo a

passo, as etapas do processo de Mineração de Dados sugerido;

 O Capítulo V apresenta os experimentos e discute os resultados

observados durante a aplicação da abordagem proposta; e

 O Capítulo VI corresponde às conclusões e apresenta as considerações

(22)

2. FUNDAMENTAÇÃO TEÓRICA

Este capítulo foca no estudo do contexto do ambiente escolhido para a

(23)

2.1 CONTEXTUALIZAÇÃO DO NEGÓCIO

De acordo com a CRISP-DM, uma das mais consagradas metodologias

para Mineração de Dados existentes no mercado, a primeira etapa do processo

de mineração deve corresponder à etapa de Entendimento do Negócio. O

objetivo desta etapa é a compreensão do problema a partir de uma perspectiva

do negócio onde o mesmo está inserido, para que uma posterior aplicação das

técnicas de Mineração de Dados possa ser conduzida com mais eficiência,

levando em consideração o cenário estudado (CHAPMAN et al., 2000).

Desta forma, tem-se que as chamadas IFES correspondem às

instituições que oferecem cursos de Ensino Superior e são mantidas pelo

Governo Federal, a exemplo das Universidades Federais e dos Institutos

Federais espalhados por todo território nacional e mantidas, majoritariamente,

por meio de verbas federais. Estas desempenham importante papel no

desenvolvimento científico e tecnológico do país e respondem por cerca de

90% da produção científica brasileira (MENEZES, SANTOS; 2002).

Sendo assim, é válido destacar que quaisquer problemas identificados

durante o estudo do cenário atual da educação superior no país afeta

diretamente as IFES e em proporções ainda mais sérias. Dada a importância

dessas instituições para o cenário nacional, é raro falar em ensino superior no

Brasil sem pensar nas IFES. Além disso, é importante lembrar que, no contexto

das IFES, recursos públicos estão em jogo e sua má utilização não afeta

somente a qualidade da educação no país, mas também é um tópico a ser

(24)

2.2 CENÁRIO DA EDUCAÇÃO SUPERIOR NO BRASIL

É inegável o crescente destaque que a educação como um todo tem tido

no Brasil nas últimas décadas. Destaque este que é, inclusive, natural e

decorrente da transformação na estrutura social brasileira que ocorreu no

começo do século XXI (POCHMANN, 2014), somada à evolução da educação

naturalmente esperada para um país em desenvolvimento. Naturalmente, com

o crescimento novos problemas e desafios surgem.

As mudanças na relação entre universidade, governo e mercado

evidenciam ainda mais o fato das universidades brasileiras, e também

latino-americanas, estarem inseridas num circuito reformador de grandes proporções

(LEHER, 2007). Conforme informações do portal oficial do INEP1 na Internet,

somente durante o governo Lula, no período de 2003 até 2010, foram editadas

23 portarias, dois decretos e aprovadas duas leis, para regulamentação da

avaliação e credenciamento de Instituições de Ensino Superior.

Isto significou, em grande parte, uma maior abertura do mercado para as

Instituições de Ensino Superior da iniciativa privada (SAMPAIO, 2011), que

passaram a ser avaliadas com mais refinamento pelo governo, o que refletiu no

aumento da qualidade das mesmas e consequente crescimento da oferta.

Crescimento este, que foi reforçado por meio dos incentivos oferecidos pelo

1

(25)

governo, como foi o caso do PROUNI2, um programa do Governo Federal

criado com o objetivo de conceder bolsas de estudo integrais e parciais em

cursos de graduação em Instituições Privadas de Ensino Superior, como forma

de complementar a oferta de acesso à educação superior, cada vez mais

insuficiente, que é oferecida pelo governo por meio das IFES.

Outro destaque é o FIES3, programa do Ministério da Educação cujo

objetivo é financiar a educação superior de estudantes matriculados em

instituições não gratuitas. Somados, FIES e PROUNI possuíam participação

em até 11% do total das matrículas na rede privada em 2010. Em 2013 este

percentual subiu para 31% das matrículas (BEMFICA, 2014).

Quando analisado o cenário da rede pública, da mesma forma que

ocorre na rede privada, evidências também apontam para o crescente

destaque da educação superior no país. É o que se constata quando da

criação do REUNI4 (LOBO, 2012), que visa integrar as universidades federais,

promover a ampliação da mobilidade estudantil e, sobretudo, ampliar a oferta.

Segundo dados do último Resumo Técnico disponível no site oficial do

Ministério da Educação (MEC), cuja elaboração ocorreu em 2014 sob a

responsabilidade do Instituto Nacional de Estudos e Pesquisas Educacionais

Anísio Teixeira (INEP) contendo dados colhidos no Censo da Educação

2

Programa Universidade Para Todos <http://siteprouni.mec.gov.br/> 3

Fundo de Financiamento ao Estudante do Ensino Superior <http://sisfiesportal.mec.gov.br/> 4

(26)

Superior referente ao ano de 2012, o ensino superior no Brasil atingiu

7.037.688 matrículas. Este número representa um crescimento de,

aproximadamente, 4,4% em relação ao ano anterior (MEC; INEP, 2014).

Conforme é possível constatar observando os números do Quadro 2.1,

o crescimento é ainda mais significativo quando analisada a evolução das

matrículas para o Ensino Superior no Brasil num panorama mais amplo. A

análise dos dados, referentes ao período de 2009 até 2012, que foram

consolidados e apresentados no Resumo Técnico publicado em 2014 confirma

a tendência do crescimento da educação superior no país (MEC; INEP, 2014).

Quadro 2.1 - Evolução das Matrículas no Ensino Superior

Fonte: Adaptado de MEC/INEP (2014)

Já o cenário mais recente é parcialmente coberto pelos dados

estatísticos preliminares divulgados pelo MEC em parceria com o INEP,

referentes ao Censo da Educação Superior de 2013. As informações

divulgadas previamente no site do INEP em setembro de 2014 revelam que o

total de alunos na educação superior brasileira chegou a 7,3 milhões em 2013,

o que significa quase 300 mil matrículas acima do registrado no ano anterior.

Ou seja, no período de 2012 até 2013, as matrículas cresceram 3,8%, sendo

(27)

Apesar da maior parcela de participação corresponder às matrículas

realizadas no setor privado do Ensino Superior, conforme mostrado a seguir na

Figura 2.1, é importante lembrar que, em última instância, esta parcela do mercado também deve seu crescimento aos investimentos feitos por meio de

recursos provenientes do governo federal. Como exemplo, é possível citar a já

mencionada relevante participação de programas como o FIES e o PROUNI

que em 2013 foram responsáveis por 31% das matrículas (BEMFICA, 2014).

Figura 2.1 - Comparação da Evolução das Matrículas

Fonte: Adaptado de MEC/INEP (2014)

Apesar do crescimento, a educação superior no Brasil ainda é um

problema, pois a oferta não atende à demanda e os gastos oriundos dos

investimentos em educação já estão atingindo seus respectivos limites. A

situação, é claro, se agrava diante da crise econômica que teve início no

primeiro semestre de 2015. Mesmo em 2009, as matrículas na educação

(28)

Educação (PNE), pois não atingiam o mínimo estabelecido de 30% em relação

à população na faixa de 18 a 24 anos (LOBO, 2012).

Este cenário revela, talvez, a importância de se atacar o problema a

partir de outra perspectiva. Os dados mostram um crescimento que depende

de altos investimentos para aumentar a oferta, seja ela pública ou privada. E

estes investimentos quase sempre saem do bolso do contribuinte, pois, como

mostrado, mesmo o aumento de matrículas no setor privado é, muitas vezes,

custeado por meio dos programas educacionais do governo. O que, inclusive,

reforça o que afirmou em entrevista o então Ministro da Educação no ano de

2013, Aloizio Mercadante: "O setor privado é maior, mas foi o setor público que

sustentou o crescimento" (TOKARNIA, 2013).

Outra possível maneira de colaborar para a evolução da educação

superior no país, está relacionada à eficiência das estratégias adotadas. É

sabido que a demanda e também a oferta na educação continuam crescendo

com o passar dos anos, como mostrado por meio da evolução dos quantitativos

de matrícula apresentados na Figura 2.1. No entanto, muitas destas matrículas

podem não representar um exemplo de bom aproveitamento dos recursos

empregados para tal finalidade. Esta questão é amplamente discutida no meio

administrativo, e aborda o tema da diferenciação entre eficiência e eficácia,

conceitos que devido à similaridade dos termos, são muitas vezes confundidos

ou julgados uma só coisa (CHIAVENATO, 1994).

Na administração, a eficácia pode ser entendida como uma medida

normativa do alcance dos resultados, enquanto a eficiência pode ser descrita

(29)

(CHIAVENATO, 1994). Desta forma, para o bem da eficiência na educação,

podem ser empregadas medidas alternativas que visem uma melhor aplicação

dos recursos já investidos. A ideia é promover uma melhoria na eficiência dos

recursos aplicados, de forma que cada uma das matrículas contabilizadas no

ensino superior reflitam, de fato, casos de bom aproveitamento acadêmico,

com a formação do aluno no prazo esperado, reduzindo, assim, a evasão.

2.3 CONHECENDO O PROBLEMA DA EVASÃO

Neste sentido, tem-se que uma das principais ameaças à eficiência do

ensino superior é a evasão (LOBO, 2012). Caracterizada pelo abandono dos

estudos por parte do discente, a evasão provoca o não aproveitamento dos

recursos investidos para manter o estudante durante o período em que esteve

ativo sendo, portanto, prejudicial para o ensino superior, como um todo,

especialmente no contexto das IFES, mantidas por meio de verbas públicas.

O foco no combate à evasão como proposta de melhoria para a

educação é justificável, também, devido ao fato de que a expansão na rede

federal de educação tem proporcionado, desde 2006, a democratização da

oferta de vagas. Com isso, para fortalecer a ação educacional, torna-se

necessário agora um olhar sobre a qualidade do ensino, com ênfase na

permanência e êxito dos estudantes no processo educativo (MEC, 2014).

Do ponto de vista social e educacional, é possível relacionar a evasão

com o atual déficit nacional de mão de obra especializada. Trata-se de uma

questão multifacetada, no entanto, fica clara sua relação com as elevadas

(30)

fato é que o número de vagas oferecidas pelas universidades cresce a cada

ano, em contrapartida, o número de formados diminuiu (MEC; INEP, 2014).

O Governo Federal, por meio do Ministério da Educação caracteriza a

evasão e define sua ocorrência com base em três modalidades (MEC, 1997):

 Evasão de curso - Trata-se da evasão no nível do curso e é

caracterizada quando o discente abandona o curso escolhido. Pode ser

configurada apenas pela troca de um curso por outro. Costuma possuir

maior impacto quando se objetiva o tratamento da evasão para um curso

específico, por exemplo, em trabalhos que buscam combater a evasão

no âmbito dos cursos de Ciência da Computação.

 Evasão da instituição - Trata-se da evasão no nível da instituição de

ensino e é caracterizada quando o discente abandona uma determinada

instituição. Pode ser configurada apenas pela troca de uma instituição

por outra. Costuma possuir maior impacto quando a evasão é analisada

do ponto de vista da instituição. Possui menor impacto pessoal para o

discente e para o ensino superior, como um todo, uma vez que a efetiva

formação do discente não está, necessariamente, comprometida.

 Evasão do sistema - Trata-se da evasão no nível do sistema de ensino e

é caracterizada quando o discente abandona de forma definitiva ou

temporária os estudos. É o nível de evasão com maior impacto,

especialmente para as Instituições Federais de Ensino Superior. A

ocupação de uma vaga em uma universidade pública seguida do

abandono da mesma configura um grave problema que independe da

(31)

2.4 INTRODUÇÃO À MINERAÇÃO DE DADOS

Nas mais diversas áreas de atuação, os dados computacionais estão

sendo coletados e acumulados em um ritmo cada vez mais dramático. Isto gera

uma necessidade de novas teorias computacionais e ferramentas para auxiliar

e viabilizar a extração de informações úteis a partir do crescente volume de

dados digitais disponíveis (HAN; KAMBER; PEI, 2011).

Cada negócio se beneficia a partir da coleta e análise de seus próprios

dados. Hospitais, por exemplo, podem encontrar padrões e anomalias em seus

registros de pacientes, enquanto mecanismos de busca podem, por exemplo,

melhorar seus sistemas de posicionamento de resultados e estratégia para

publicidade por meio desta análise (HAN; KAMBER; PEI, 2011).

É neste contexto que atua a Descoberta de Conhecimento em Bancos

de Dados, também conhecida como Knowledge Discovery in Databases que

utiliza os dados contidos em grandes bases para descobrir padrões e revelar

informações antes desconhecidas (FAYYAD; PIATETSKY-SHAPIRO; SMYTH,

1996). Apesar da comum utilização dos termos KDD (Knowledge Discovery in

Databases) e DM (Data Mining) como sinônimos válidos para a maioria das situações, o fato é que o termo Data Mining pode ser entendido como sinônimo

ou como uma etapa do KDD. Existem definições que esclarecem a questão,

separando o conceito específico de Mineração de Dados do conceito global de

Descoberta de Conhecimento em Bancos de Dados.

Ocorre que, enquanto KDD é o processo global de extração de

(32)

Dados corresponde a uma etapa em particular do KDD na qual a identificação

de padrões é realizada por meio da aplicação de algoritmos de inteligência

artificial (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

A Mineração de Dados pode ser definida, de forma resumida, como o

processo parcialmente automático de descoberta de padrões, associações,

mudanças, anomalias, estruturas estatísticas significativas e eventos nos

dados (ZAKI; WONG, 2003). O foco do processo de Mineração de Dados

reside em encontrar padrões ocultos que possam ser considerados relevantes

para o interesse do negócio. Para tanto, o processo é composto pelas etapas

de seleção, análise, preparação, aplicação, interpretação e avaliação dos

resultados (BALA SUNDAR V; DEVI; SARAVANAN, 2012).

Sendo caracterizado como um procedimento investigativo, a Mineração

de Dados objetiva a análise da informação relacionada à área de atuação onde

o negócio está inserido. Como já dito, o principal objetivo da Mineração de

Dados é a descoberta de padrões que, uma vez revelados, possam ser

utilizados no futuro para auxiliar em certas decisões que contribuam para o

desenvolvimento do modelo de negócio (PUSHPANJALI; NAYAKI, 2015).

O processo de Mineração de Dados sempre objetiva a expectação,

desta forma, a mineração de informações preditivas é o mais conhecido

produto (tipo de informação extraída) dentre os possíveis de se obter por meio

da aplicação de alguma técnica para Mineração de Dados. Além disso, ele é

um dos produtos que mais apresenta significativo grau de aplicabilidade direta

(33)

Um importante aspecto a ser ressaltado no âmbito da Mineração de

Dados é que os resultados minerados devem possuir certas características.

Eles devem ser válidos, novos, úteis e compreensíveis. Estas qualidades têm

sua importância justificada por uma série de razões, conforme descritas a

seguir (ZAKI; WONG, 2003):

 Válidos - É crucial que os padrões, regras e modelos descobertos sejam

válidos. A validade se faz necessária não apenas nas amostras de

dados já examinadas. É preciso também que seja possível a

generalização de forma que as regras, padrões e modelos permaneçam

válidos em amostras de dados futuras. Somente desta forma, estes

padrões poderão ser considerados significativos.

 Novos - É desejável que os padrões, regras e modelos descobertos

ainda não sejam de conhecimento dos especialistas. De outra forma,

eles iriam revelar muito pouco do ponto de vista de informações

verdadeiramente inéditas acerca das amostras de dados examinadas e

do problema que se busca resolver.

 Úteis - É desejável que os padrões, regras e modelos descobertos

permitam a tomada de ações significativas, isto é, úteis do ponto de vista

do negócio. Um exemplo seria a descoberta de padrões, regras e

modelos que permitam a predição confiável de eventos futuros.

 Compreensíveis - É desejável que os padrões, regras e modelos

descobertos, quando dos seus resultados interpretados, permitam

conduzir o analista até uma nova descoberta sobre as amostras de

(34)

2.5 OBJETIVOS DA MINERAÇÃO DE DADOS

O processo de Mineração de Dados pode ser conduzido de várias

maneiras distintas, de acordo com os objetivos que se deseja alcançar com a

aplicação da técnica. Alguns autores acreditam existir, basicamente, dois

grandes grupos de objetivos possíveis com a Mineração de Dados, conforme

descritos abaixo (ZAKI; WONG, 2003):

I. Atingir uma capacidade preditiva confiável, ou seja, buscar responder

quais fenômenos podem vir a acontecer; e

II. Alcançar uma descrição compreensível, ou seja, identificar a razão de

fenômenos já conhecidos acontecerem da forma como acontecem.

Outra definição diz respeito às abordagens possíveis durante a etapa de

Mineração de Dados, que por sua vez, conduzem a diferentes objetivos. A

primeira abordagem é conhecida como top-down ou teste de hipótese. Nela,

já existe uma hipótese e a Mineração de Dados é aplicada com o objetivo de

confirmá-la ou refutá-la (CÔRTES; PORCARO; LIFSCHITZ, 2002).

Já na segunda abordagem chamada bottom-up, mas também conhecida

como busca de conhecimento, utiliza-se técnicas para exploração dos dados,

objetivando a descoberta de alguma informação nova, desconhecida

anteriormente e cuja existência não foi prevista por nenhuma hipótese. Há

também uma terceira abordagem conhecida como abordagem híbrida, que é a

(35)

2.6 TÉCNICAS PARA MINERAÇÃO DE DADOS

Para obtenção dos resultados desejados, diversas técnicas diferentes

podem ser aplicadas no processo de Mineração de Dados propriamente dito,

além das diferentes abordagens que já existem para o processo global de

KDD, tais como técnicas para seleção, limpeza e preparação dos dados.

Atualmente a literatura prevê inúmeras técnicas para a etapa de Mineração de

Dados com diferentes aplicações e resultados. Cada técnica privilegia uma

determinada estratégia de ação, a exemplo das duas relevantes tarefas da

Mineração de Dados exemplificadas abaixo (RAMAGERI, 2011):

 Classificação - Técnica para Mineração de Dados que utiliza um

conjunto de exemplos pré-classificados para desenvolver um modelo

capaz de classificar, posteriormente, registros em larga escala.

 Clustering - Também conhecida como agrupamento, possui como

principal diferença em relação à classificação, o fato de não utilizar

exemplos pré-classificados, identifica classes similares de objetos por

meio da observação da organização dos objetos no espaço.

A aplicação de uma das tarefas acima apresentadas, por exemplo,

compõe o processo de definição da técnica de Mineração de Dados a ser

utilizada. Cada tarefa favorece um determinado objetivo e possui uma

aplicação adequada para tratar casos específicos, sendo crucial a sua escolha

para o sucesso da atividade de mineração e para a eficácia do processo global

de Descoberta de Conhecimento em Banco de Dados. A classificação, por

(36)

risco de crédito e detecção de fraude. Já o clustering pode ser utilizado para

agrupar clientes com base nos seus padrões de compra ou categorizar genes

que possuem funções genéticas similares (RAMAGERI, 2011).

É possível entender a classificação como uma técnica de aprendizado

supervisionada na qual os dados são mapeados em grupos pré-definidos. A classificação é comumente utilizada para desenvolver um modelo que possa

classificar corretamente um conjunto grande de registros. Os algoritmos de

classificação necessitam que as classes sejam definidas baseadas nos valores

de atributos presentes nos dados. É possível descrever as classes com base

nas características dos dados cujo enquadramento em determinada classe já é

de conhecimento dos analistas. O algoritmo de treinamento para classificação

utiliza estes exemplos pré-definidos para determinar o conjunto de parâmetros

requeridos para a correta classificação dos demais (GARG; SHARMA, 2013).

Já o clustering pode ser entendido como o processo de agrupar dados

em classes de forma que todos os objetos contidos no agrupamento possuam

alto teor de semelhança quando comparados aos demais contidos no mesmo

agrupamento, mas baixo teor de semelhança quando comparados a objetos

contidos em outros agrupamentos. As diferenças são observadas com base no

valor dos atributos que descrevem os objetos, muitas vezes distantes. Desta

maneira, é possível entender um agrupamento como uma coleção de objetos

de dados que apresentam semelhanças entre si e diferenças quando

comparados com objetos de outros agrupamentos (GARG; SHARMA, 2013).

Em contraste com a técnica de classificação, pode-se dizer que o

(37)

a expor os agrupamentos naturais dos dados. A clusterização - neologismo

em português que corresponde à técnica de mesmo nome em inglês - é

frequentemente utilizada em aplicações de Mineração de Dados que objetivam

a descoberta de padrões em conjuntos de dados (GARG; SHARMA, 2013).

É comum quando do estudo das tarefas ou técnicas da Mineração de

Dados, a apresentação de outras definições tais como regressão, estimação,

predição, agrupamento, segmentação entre outros. No entanto, objetivando a simplificação dos conceitos, é possível classificar estas tarefas como

variações das tarefas acima descritas (classificação e clustering) uma vez

que representam técnicas similares com apenas algumas pequenas variações

em casos específicos ou quando definidas por literaturas distintas.

É importante lembrar que o processo de escolha que busca definir quais

técnicas de Mineração de Dados deve-se aplicar, depende majoritariamente da

tarefa de mineração a ser empregada, sendo a tarefa a essência da técnica

aplicada. As exigências inerentes às tarefas de mineração e às suas

características influenciam a viabilidade entre os métodos de mineração e os

problemas de negócio (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).

Outro aspecto relacionado às técnicas existentes para Mineração de

Dados diz respeito à escolha do algoritmo que deverá ser aplicado. O processo

de Data Mining faz uso de sofisticadas ferramentas para permitir a análise de

dados, sempre objetivando a descoberta de padrões e a identificação de

relacionamentos em grandes conjuntos de dados. Estas ferramentas são muito

mais do que sínteses básicas ou consultas ao banco, são, na verdade,

(38)

2.7 ALGORITMOS PARA MINERAÇÃO DE DADOS

Diferentes tipos de algoritmos de mineração foram propostos ao longo

dos anos (HAN; KAMBER; PEI, 2011). Um único algoritmo pode não atender

todos os casos devido à dificuldade de adequação dos tipos de dados. Sendo

assim, a seleção de um algoritmo correto depende não apenas do objetivo da

aplicação, mas também da compatibilidade dos dados (GARG; SHARMA,

2013), desta forma, é possível obter um desempenho único para cada caso.

Abaixo são apresentados alguns algoritmos classificadores notórios.

 Naive Bayes - Recebe esse nome por ter sua base no teorema da

probabilidade de Baye (HAN; KAMBER; PEI, 2011). De uma forma geral,

possui como principal aplicação calcular a probabilidade de que uma

amostra desconhecida pertença a uma classe já conhecida de objetos.

Suponha que R seja uma registro considerado evidência. Neste caso, H

seria a hipótese de que o registro R pertence a uma classe C, já

previamente especificada. Determina-se que P é a probabilidade de que

a hipótese H se sustente, dada as evidências do registro R. Este tipo de

predição é chamado de predição estatística (GARG; SHARMA, 2013).

 Classification Tree - Trata-se de uma estrutura em forma de fluxograma

com variações muito utilizadas na área de aprendizado de máquina. De

uma forma geral, numa árvore de decisão, cada nó representa um teste

sobre o valor de um atributo. Continuando a analogia, tem-se que cada

(39)

Já as folhas (ou ramos terminais) simbolizam as classes nas quais os

dados podem ser organizados (HAN; KAMBER; PEI, 2011).

 SVM - Sigla para Support Vector Machine, o SVM é um conhecido

método para classificação tanto de dados lineares como não lineares.

Apresentado por Vladmir Vapnik em 1992, também pode ser usado para

predição numérica (HAN; KAMBER; PEI, 2011).

 K Nearest Neighbors - Este método foi descrito pela primeira vez no

começo da década de 1950, mas não ganhou popularidade até a

década de 1960, quando o poder computacional disponível cresceu

bastante. Possui como principal particularidade o fato de que não

constrói, de imediato, um modelo a partir dos dados submetidos para

treinamento, aguardando a submissão dos dados para teste. Somente

de posse destes é que a classificação ocorre, com base na similaridade

dos registros apresentados (HAN; KAMBER; PEI, 2011).

 Logistic Regression - Variação da regressão linear, a regressão

logística afere a relação entre variáveis e estima probabilidades por meio

de uma função logística. No âmbito da Mineração de Dados pode ser

definido como método para classificação estatística que enquadra dados

em uma função logística (HAN; KAMBER; PEI, 2011).

 Random Forest Classification - Pode ser entendido como uma coleção

de árvores de decisão (decision trees). As estruturas de cada árvore

individual são geradas a partir de uma seleção randômica de atributos,

daí o nome. Durante a classificação o resultado de cada árvore

(40)

2.8 METODOLOGIAS PARA MINERAÇÃO DE DADOS

Na tentativa de propor uma metodologia capaz de fornecer orientações

quanto ao planejamento, aplicação e avaliação de uma atividade de Mineração

de Dados, diversos autores começaram a construir seus modelos. No entanto,

poucos modelos genéricos surgiram. Um modelo genérico pode ser definido

como uma metodologia para Mineração de Dados cuja aplicação possa ser

adaptada para as mais diversas áreas dos negócios.

O fato é que, não existe uma abordagem única que resolva todos os

problemas da Mineração de Dados. Diferentes métodos atendem diferentes

propósitos e cada método oferece suas vantagens e suas desvantagens, sendo

a escolha dependente do problema que se deseja enfrentar e também do que

se espera obter como resultado após a mineração (DIAS, 2001).

É possível entender os projetos de Mineração de Dados como projetos

que possuem características bastante específicas (DIAS, 2001) e que reúnem

diversas disciplinas, envolvendo áreas de conhecimento muitas vezes pouco

exploradas em conjunto. Fica evidente que uma abordagem direcionada

auxilia, não somente nas questões ligadas à documentação do projeto, mas

também serve como um roteiro para futuros projetos de natureza similar.

Mesmo propondo a definição de abordagens específicas para cada

caso, nada impede que estas se baseiem em metodologias de mineração já

consagradas. No âmbito da Mineração de Dados, uma tentativa de metodologia

que busca atender às particularidades causadas pela multidisciplinaridade

(41)

Industry Standard Process for Data Mining um modelo de processo proposto especificamente para a Mineração de Dados (CHAPMAN et al., 2000).

Uma metodologia que poderia fazer frente à CRISP-DM seria a SEMMA,

acrônimo para Sample, Explore, Modify, Model and Assess ou em português

Amostra, Exploração, Modificação, Modelagem e Avaliação. Trata-se de um

modelo com passos sequenciais para as atividades de Mineração de Dados. A

metodologia foi desenvolvida pela SAS Institute Inc5 uma das maiores

companhias da áreas de Bussiness Inteligence. Ainda assim, conforme mostra

a Figura 2.2, pesquisas apontam que a utilização do SEMMA chegou a ser

cinco vezes menor do que o CRISP-DM em 2014 (KDNUGGETS, 2014).

Figura 2.2 - Comparativo da Utilização de Metodologias de MD

Fonte: Adaptado de KDNUGGETS.com (2014)

Tendo em vista sua ampla utilização somada ao fato de se tratar de uma

metodologia desenvolvida para atender as necessidades dos mais diversos

casos possíveis para um projeto de Mineração de Dados, a apresentação de

5

(42)

algumas etapas propostas pela CRISP-DM é válida. Por se tratar de um

processo relativamente bem definido, diversas orientações sobre cada etapa

são fornecidas, conforme resumidas a seguir (CHAPMAN et al., 2000):

 Compreensão do negócio - Esta fase inicial foca na compreensão dos

objetivos do projeto e dos requerimentos necessários, do ponto de vista

do negócio. Só então este conhecimento será utilizado para definição de

um problema dentro da perspectiva da Mineração de Dados e de uma

estratégia preliminar para alcançar os objetivos.

 Compreensão dos dados - A etapa de compreensão dos dados

começa com uma coleta de dados inicial e tem sua continuidade nas

atividades que buscam a familiarização com os dados, a identificação de

possíveis problemas na qualidade dos dados, a elaboração de palpites

iniciais acerca dos dados e a detecção de conjuntos interessantes para

formar hipóteses sobre informações ocultas.

 Preparação dos dados - A fase de preparação dos dados abrange

todas as atividades necessárias para a construção do conjunto de dados

final, isto é, o conjunto de dados que será submetido às ferramentas de

modelagem. As tarefas de preparação de dados costumam ser repetidas

quantas vezes forem necessárias e não possuem uma ordem precisa

para ocorrerem. Alguns modelos podem exigir formatos específicos dos

dados. Por esta razão, o retorno à etapa de preparação dos dados é

comum quando se está na etapa seguinte de modelagem. Estas tarefas

incluem a seleção de tabelas, registros e atributos assim como a limpeza

(43)

 Modelagem - Nesta importante etapa várias técnicas para modelagem

são selecionadas e aplicadas sobre os dados que foram selecionados e

preparados no decorrer das etapas anteriores. Os parâmetros inerentes

ao modelo proposto são calibrados ao longo desta etapa, tendo em vista

a otimização dos valores obtidos como resultado da aplicação do

mesmo. Existem várias técnicas para o mesmo problema de Mineração

de Dados e algumas técnicas possuem requerimentos específicos

quanto ao formato dos dados. Por esta razão, como já foi dito

anteriormente, um eventual retorno para a etapa de preparação dos

dados costuma ser necessário durante o processo de modelagem.

 Avaliação - Esta etapa ocorre após a aplicação de pelo menos um

modelo que aparente resultar em alto valor do ponto de vista da análise

da informação. Antes de proceder para o desdobramento final do

modelo é importante avaliar de forma mais rigorosa o modelo escolhido

e revisar os passos executados para construir o modelo para

certificar-se de que ele alcança adequadamente os objetivos do negócio. Apesar

de seus objetivos lembrarem os objetivos da etapa anterior, na qual os

modelos são propostos e otimizados, a etapa de avaliação é

extremamente importante, pois com ela é possível determinar se existe

algum problema relevante do negócio que não tenha sido atendido de

forma satisfatória pelo modelo proposto. Ao final desta etapa será

possível decidir acerca da utilização ou não dos resultados obtidos com

a aplicação do modelo proposto. Afinal de contas, a aprovação do

modelo implica também na aceitação e consequente utilização das

(44)

 Desdobramento - Por fim, na etapa de desdobramento constata-se que

a criação do modelo não costuma ser o fim do projeto. Mesmo se o

propósito do modelo for expandir o conhecimento acerca dos dados

estudados, o conhecimento recebido precisará ser organizado e

apresentado de uma forma que seja útil para os interessados.

Dependendo dos requisitos, a fase de desdobramento pode se resumir à

elaboração de um relatório ou ser tão complexa ao ponto de exigir uma

implementação de um sistema de pontuação de dados ou tarefa de

Mineração de Dados possível de repetição. Na maioria dos casos será o

cliente (ou a parte interessada nas informações do negócio) e não o

analista de dados quem irá conduzir a etapa de desdobramento. Mesmo

que o analista seja o responsável, é importante que a parte interessada

compreenda as ações que serão necessárias para por em uso os

modelos criados e colher os resultados desejados.

As fases do CRISP-DM e suas respectivas relações, dependências e

sequência sugerida estão representados na Figura 2.3. É importante lembrar

que a sequência entre as fases não é rígida. Desta forma, pular ou avançar

etapas pode ser necessário. As flechas indicativas de sequência no diagrama

do processo CRISP-DM representado pela Figura 2.3 apontam simplesmente

as dependências mais importantes ou mesmo mais frequentes entre duas

fases distintas. Conforme representado pela flecha circular que envolve todo o

diagrama, o CRISP-DM respeita também a natureza cíclica do processo de

Mineração de Dados, podendo o processo global ser repetido quantas vezes

for necessário ou mesmo empregado mais de uma vez de forma diferente e

(45)

Figura 2.3 - Etapas do processo CRISP-DM

Fonte: Adaptado de CRISP-DM (2000)

Mesmo com o projeto descontinuado em junho de 2015, as contribuições

propostas pelo CRISP-DM continuam sendo adotadas, porém cada vez mais

cresce sua utilização como base para o desenvolvimento de abordagens

direcionadas, já que estas costumam atender melhor problemas específicos.

(46)

2.9 CONSIDERAÇÕES FINAIS

Neste capítulo foram apresentadas as principais matérias relacionadas

ao objeto de estudo desta dissertação. Inicialmente, foi conduzido um estudo

acerca do ambiente escolhido para a aplicação das técnicas de Mineração de

Dados proposta. Este estudo objetivou o alinhamento com o que propõe a

literatura, isto é, o entendimento do negócio e particularidades inerentes ao

ambiente no qual o mesmo está inserido antes da atividade de mineração.

Em seguida foram estudados alguns aspectos técnicos relacionados ao

processo de Mineração de Dados. O objetivo foi apresentar e discutir algumas

das abordagens mais comuns no mercado. Por fim, foram apresentadas

algumas metodologias já existentes para Mineração de Dados com o intuito de

aproveitar algumas boas práticas já definidas durante a condução do processo

de mineração, que será descrito conforme a abordagem proposta.

Uma vez compreendidos os aspectos técnicos inerentes a matéria objeto

de estudo deste trabalho, com base no que foi exposto neste capítulo, é

possível, agora, analisar produções correlatas inseridas neste mesmo contexto

de pesquisa. Para tanto, o próximo capítulo apresenta alguns trabalhos

relacionados, assim considerados os que possuem objetivos ou metodologia

(47)

3. TRABALHOS RELACIONADOS

Este capítulo possui como foco a análise de trabalhos relacionados, com

(48)

3.1 CONSIDERAÇÕES INICIAIS

Objetivando a verificação da pertinência e contemporaneidade da linha

de pesquisa proposta, serão analisados aqui alguns trabalhos correlatos cujas

abordagens estejam, de alguma forma, relacionadas ao tema tratado neste

trabalho. Para tanto, foram definidos alguns critérios para seleção das

produções analisadas, visando um melhor alinhamento dos objetivos.

Primeiramente, deu-se preferência as produções mais recentes dentre

as encontradas que tratam o tema da Mineração de Dados. O objetivo é avaliar

a relevância do tema de acordo com cenário atual de pesquisa, tendo em vista

os desafios, abordagens e soluções mais recentes dentre os propostos,

evitando, desta forma, a análise de produções já ultrapassadas.

Em adição, foi dada preferência as produções que apresentam uma

abordagem mais direcionada da Mineração de Dados. Ou seja, produções que

tratem da utilização da Mineração de Dados no meio acadêmico ou

educacional. Por fim, buscou-se trabalhos cujos objetivos envolvam, de alguma

forma, o tratamento da evasão por meio da Mineração de Dados, sempre

dando preferência as publicações mais recentes dentre as encontradas.

Outro critério empregado durante a seleção dos trabalhos foi a

diversidade da natureza dos mesmos. Visando a obtenção de uma coleção de

trabalhos heterogênea que permita uma análise imparcial do tema, foram

selecionadas publicações dos mais variados tipos: estudos bibliométricos,

propostas de soluções similares, teses de doutorado, discussões apresentadas

(49)

3.2 BAKER; ISOTANI; CARVALHO (2011)

Em Baker, Isotani e Caravalho (2011) os autores apresentam um estudo

focado na área de Mineração de Dados Educacionais, isto é, a aplicação da

Mineração de Dados no contexto da Educação. Os autores esclarecem que a

Mineração de Dados Educacionais é uma área de pesquisa atual que tem

como principal objetivo o desenvolvimento de métodos para explorar conjuntos

de dados coletados em ambientes educacionais.

O artigo discute a atual relevância desta área de pesquisa inovadora, e

apresenta as dificuldades e oportunidades no cenário nacional. A partir do

exposto no artigo, é possível identificar que, atualmente, a Mineração de Dados

Educacionais vem se estabelecendo como uma linha de pesquisa em

ascensão e que possui grande potencial para ajudar na melhoria da qualidade

do ensino. Ainda assim, os autores apontam a carência de publicações

nacionais na área e discutem os benefícios que poderiam ser alcançados.

Os autores apresentam uma revisão das pesquisas recentes realizadas

na área, com ênfase na identificação das aplicações e métodos mais

recorrentes. Após a análise das publicações, em sua conclusão, o artigo

destaca os trabalhos que propõem o desenvolvimento de métodos mais

eficazes para dar suporte à aprendizagem quando o aluno estuda utilizando

software educacional, como no caso da Educação a Distância. Desta forma,

tem-se que o exposto no artigo reforça a proposta deste trabalho, tanto do

ponto de vista da relevância da linha de pesquisa, como da necessidade de

(50)

3.3 RIGO; CAZELLA; CAMBRUZZI (2012)

Em Rigo, Cazella e Cambruzzi (2012) os autores apresentam um

relevante levantamento que compreende o estado da arte acerca do tema

'Mineração de Dados e evasão escolar', com ênfase nos desafios,

oportunidades e necessidades da área. O artigo foi proposto em resposta ao

tema do IV Desafio da Sociedade Brasileira de Computação (SBC) que aborda

a questão do acesso participativo e universal do cidadão brasileiro ao

conhecimento. A pesquisa foi apresentada durante o Workshop de Desafios da

Computação Aplicada à Educação, que ocorreu em 2012.

Os autores destacam a relevância e contemporaneidade da linha de

pesquisa abordada. O artigo apresenta uma análise das possíveis melhorias na

aplicação das técnicas de Mineração de Dados Educacionais, objetivando que

os resultados obtidos por meio de tal técnica possam apoiar, de forma efetiva,

processos de detecção de comportamentos ligados à evasão escolar. Os

autores enfatizam ainda a importância do desenvolvimento de soluções que

possibilitem um diagnóstico precoce da evasão, bem como a realização de

ações pedagógicas relevantes, por parte das instituições de ensino.

Em conclusão, os autores apontam que existe possibilidade para

utilização de abordagens combinadas para Mineração de Dados Educacionais.

No entanto, mais pesquisas que promovam a exploração de algoritmos,

mecanismos e técnicas são necessárias para que sejam alcançados resultados

ainda mais abrangentes e úteis, de forma a contribuir com a mitigação da

(51)

3.4 SANTOS; SIEBRA; OLIVEIRA (2014)

Em Santos, Siebra e Oliveira (2014) os autores propõem uma

abordagem de Mineração de Dados para identificação de casos de evasão, por

meio das informações disponíveis em Ambientes Virtuais de Aprendizagem

(AVA). Trata-se de uma proposta para identificação da evasão no contexto dos

cursos da modalidade Educação a Distância (EaD) com utilização exclusiva de

dados acadêmicos variantes no tempo acerca dos discentes.

Ao analisar o artigo citado e os resultados obtidos, é possível identificar

como principal vantagem a grande coleção de dados disponibilizada pelas

ferramentas utilizadas na modalidade Educação a Distância (EaD), em especial

os Ambientes Virtuais de Aprendizagem (AVA). Ao contrário do que se observa

para os Sistemas de Gestão Acadêmica (SGA) tradicionais utilizados na

Educação Presencial, os AVA produzem uma enorme quantidade de dados

(logs) acerca da participação dos discentes, não só no que se refere ao

desempenho acadêmico, mas também: frequência de acesso à plataforma,

registro de interações com o docente e até mesmo conteúdo das atividades.

O artigo também defende a relevância da utilização da Mineração de

Dados para tratamento da evasão e destaca a grande quantidade de trabalhos

que focam na Educação a Distância e utilizam dados provenientes de AVA.

Desta forma, tem-se que a abordagem aqui apresentada é relevante,

especialmente, por atuar fora do contexto da EaD e tratar os desafios e

limitações inerentes aos SGA tradicionais usados na Educação Presencial,

(52)

3.5 MACHADO ET AL (2015)

Em Machado et al. (2015) os autores apresentam um estudo

bibliométrico focado na área de Mineração de Dados Educacionais. Neste

trabalho, especificamente, foi feito um levantamento de várias pesquisas

recentes que utilizam a Mineração de Dados para tratar, das mais variadas

maneiras, temas relacionados à evasão nos vários níveis da educação. Em

contraste ao proposto por Baker, Isotani e Carvalho (2011), este trabalho não

se limita ao estudo da área no contexto nacional, apresentando diversos

trabalhos internacionais com ênfase na aplicação da Mineração de Dados

Educacionais para tratamento de temas relacionados à evasão.

O artigo é especialmente importante, pois apresenta tópicos relevantes

para a área de pesquisa em questão, além de ser bastante atual, tendo sido

apresentado em agosto de 2015 no XI Congresso Nacional de Excelência em

Gestão. Os autores conduziram uma pesquisa nos mais respeitados

repositórios científicos, usando diferentes termos. Do total dos trabalhos

levantados, mais de 36% foram publicados nos últimos dois anos.

Os autores apontam que, embora haja uma carência de trabalhos na

área, houve significativo aumento do interesse pela mesma, conforme mostrou

o crescente número de publicações registradas nos últimos anos. Em um dos

repositórios buscados, observou-se que mais da metade (54,04%) dos artigos

foram publicados entre 2013 e 2014. Após o levantamento, os autores

concluíram que a Mineração de Dados Educacionais para tratamento da