MARCELO GOMES DO AMARAL
MINERAÇÃO DE DADOS APLICADA À CLASSIFICAÇÃO DO
RISCO DE EVASÃO DE DISCENTES INGRESSANTES EM
INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR
Dissertação de Mestrado Profissional
RECIFE
2016
MARCELO GOMES DO AMARAL
MINERAÇÃO DE DADOS APLICADA À CLASSIFICAÇÃO DO
RISCO DE EVASÃO DE DISCENTES INGRESSANTES EM
INSTITUIÇÕES FEDERAIS DE ENSINO SUPERIOR
Trabalho apresentado à pós-graduação
em Ciência da Computação do Centro de
Informática (CIn) da Universidade Federal
de Pernambuco (UPFE) como requisito
parcial para obtenção do título de mestre
em Ciência da Computação.
Orientador: Prof. Dr. Fernando da Fonseca de Souza
RECIFE 2016
Dedico este trabalho à Luíza que, para mim, acima de tudo, representa a motivação para começar, continuar e concluir tudo que faço.
Em primeiro lugar, agradeço ao Centro de Informática da Universidade
Federal de Pernambuco e todos os envolvidos neste programa de
pós-graduação, em especial os que, na qualidade de organizadores deste
mestrado, tornaram possível a condução desta pesquisa. Agradeço também
aos professores que ajudaram de alguma forma na construção do
conhecimento empregado na elaboração desta dissertação. Em especial,
agradeço ao meu orientador Prof. Dr. Fernando Fonseca, pelo acolhimento
inicial e tempo desprendido auxiliando na definição dos detalhes do escopo da
pesquisa proposta. Sem a credibilidade por ele depositada na minha pessoa
este trabalho não teria ocorrido. Agradeço também pelas sempre cuidadosas
correções e sugestões oferecidas. Agradeço aos familiares e amigos pela
compreensão do tempo que estive ausente durante elaboração desta pesquisa.
Por fim, reforço que, sem o apoio de todos os aqui mencionados e alguns que
As Instituições Federais de Ensino Superior (IFES) possuem um
importante papel no desenvolvimento social e econômico do país, contribuindo
para o avanço tecnológico e cientifico e fomentando investimentos. Nesse
sentido, entende-se que um melhor aproveitamento dos recursos educacionais
ofertados pelas IFES contribui para a evolução da educação superior, como um
todo. Uma maneira eficaz de atender esta necessidade é analisar o perfil dos
estudantes ingressos e procurar prever, com antecedência, casos indesejáveis
de evasão que, quanto mais cedo identificados, melhor poderão ser estudados
e tratados pela administração. Neste trabalho, propõe-se a definição de uma
abordagem para aplicação de técnicas diretas de Mineração de Dados
objetivando a classificação dos discentes ingressos de acordo com o risco de
evasão que apresentam. Como prova de conceito, a análise dos aspectos
inerentes ao processo de Mineração de Dados proposto se deu por meio de
experimentações conduzidas no ambiente da Universidade Federal de
Pernambuco (UFPE). Para alguns dos algoritmos classificadores, foi possível
obter uma acurácia de classificação de 73,9%, utilizando apenas dados
socioeconômicos disponíveis quando do ingresso do discente na instituição,
sem a utilização de nenhum dado dependente do histórico acadêmico.
Palavras-chave: Descoberta de Conhecimento em Bancos de Dados. Mineração de Dados Educacionais. Algoritmos de Classificação.
The Brazilian's Federal Institutions of Higher Education have an
important role in the social and economic development of the country,
contributing to the technological and scientific advances and encouraging
investments. Therefore, it is possible to infer that a better use of the educational
resources offered by those institutions contributes to the evolution of higher
education as a whole. An effective way to meet this need is to analyze the
profile of the freshmen students and try to predict, as soon as possible,
undesirable cases of dropout that when earlier identified can be examined and
addressed by the institution's administration. This work propose the
development of a approach for direct application of Data Mining techniques to
classify newcomer students according to their dropout risk. As a viability proof,
the proposed Data Mining approach was evaluated through experimentations
conducted in the Federal University of Pernambuco. Some of the classification
algorithms tested had an classification accuracy of 73.9% using only
socioeconomic data available since the student's admission to the institution,
without the use of any academic related data.
Keywords: Knowledge Discovery in Databases. Educational Data Mining. Classification Algorithms.
Figura 1.1 - Etapas da metodologia de trabalho ... 18
Figura 2.1 - Comparação da Evolução das Matrículas ... 26
Figura 2.2 - Comparativo da Utilização de Metodologias de MD ... 40
Figura 2.3 - Etapas do processo CRISP-DM ... 44
Figura 4.1 - Etapas da abordagem proposta ... 56
Figura 4.2 - Importação dos dados no Orange ... 93
Figura 4.3 - Configuração dos atributos no Orange ... 95
Figura 4.4 - Fluxograma do modelo de mineração ... 97
Figura 4.5 - Visualização individual dos registros classificados ... 100
Figura 4.6 - Etapas da abordagem proposta ... 101
Figura 4.7 - Probabilidades de classificação ... 103
Quadro 2.1 - Evolução das Matrículas no Ensino Superior ... 25
Quadro 3.1 - Resumo dos trabalhos analisados ... 53
Quadro 4.1 - Estrutura da tabela siga_situacao_academica ... 74
Quadro 4.2 - Estrutura da tabela siga_tipo_situacao_acacademica ... 74
Quadro 4.3 - Conteúdo da tabela siga_tipo_situacao_academica ... 75
Quadro 4.4 - Atributos selecionados para extração ... 83
Quadro 5.1 - Resultados do experimento nº 1 ... 108
Quadro 5.2 - Resultados do experimento nº 2 ... 110
Quadro 5.3 - Resultados do experimento nº 3 ... 112
Quadro 5.4 - Resultados do experimento nº 4 ... 114
SUMÁRIO ... 10 1. INTRODUÇÃO ... 12 1.1 APRESENTAÇÃO ... 13 1.2 MOTIVAÇÃO ... 14 1.3 PROBLEMA ... 16 1.4 OBJETIVOS ... 16 1.5 METODOLOGIA ... 17 1.6 ESTRUTURA DA DISSERTAÇÃO ... 19 2. FUNDAMENTAÇÃO TEÓRICA ... 21 2.1 CONTEXTUALIZAÇÃO DO NEGÓCIO ... 22
2.2 CENÁRIO DA EDUCAÇÃO SUPERIOR NO BRASIL ... 23
2.3 CONHECENDO O PROBLEMA DA EVASÃO ... 28
2.4 INTRODUÇÃO À MINERAÇÃO DE DADOS ... 30
2.5 OBJETIVOS DA MINERAÇÃO DE DADOS ... 33
2.6 TÉCNICAS PARA MINERAÇÃO DE DADOS ... 34
2.7 ALGORITMOS PARA MINERAÇÃO DE DADOS ... 37
2.8 METODOLOGIAS PARA MINERAÇÃO DE DADOS ... 39
2.9 CONSIDERAÇÕES FINAIS ... 45
3. TRABALHOS RELACIONADOS ... 46
3.1 CONSIDERAÇÕES INICIAIS ... 47
3.2 BAKER; ISOTANI; CARVALHO (2011) ... 48
3.3 RIGO; CAZELLA; CAMBRUZZI (2012) ... 49
3.4 SANTOS; SIEBRA; OLIVEIRA (2014) ... 50
3.5 MACHADO ET AL (2015) ... 51
3.6 MANHÃES (2015)... 52
3.7 CONSIDERAÇÕES FINAIS ... 53
4. ABORDAGEM PROPOSTA ... 54
4.1 CONSIDERAÇÕES INICIAIS ... 55
4.2 DEFINIÇÃO DOS OBJETIVOS ... 59
4.3 APRESENTAÇÃO DAS FERRAMENTAS ... 67
4.4 COMPREENSÃO E SELEÇÃO DOS DADOS ... 70
4.5 PREPARAÇÃO E TRANSFORMAÇÃO DOS DADOS ... 88
4.6 IMPORTAÇÃO DOS DADOS NA FERRAMENTA ... 92
4.7 CONSTRUÇÃO DO MODELO PARA MINERAÇÃO ... 96
4.8 CONSIDERAÇÕES FINAIS ... 101
5. RESULTADOS ... 104
5.1 CONSIDERAÇÕES INICIAIS ... 105
5.2 PRIMEIRO EXPERIMENTO PROPOSTO ... 107
5.3 SEGUNDO EXPERIMENTO PROPOSTO ... 109
5.4 TERCEIRO EXPERIMENTO PROPOSTO ... 111
5.7 ANÁLISE DOS RESULTADOS ... 116 5.8 CONSIDERAÇÕES FINAIS ... 119 6. CONCLUSÕES ... 120 6.1 CONTRIBUÍÇÕES ... 121 6.2 LIMITAÇÕES ... 122 6.3 CONSIDERAÇÕES FINAIS ... 123 6.4 TRABALHOS FUTUROS ... 126 REFERÊNCIAS ... 128
1. INTRODUÇÃO
Neste capítulo serão apresentadas as considerações iniciais acerca do
1.1 APRESENTAÇÃO
A evasão é uma preocupante realidade enfrentada pelo ensino superior
brasileiro, seja ele de natureza pública ou privada (LOBO, 2012). Dada a
significativa contribuição das Instituições Federais de Ensino Superior (IFES)
na viabilização da educação superior do país, fica clara a importância do
combate à evasão no âmbito das mesmas. No contexto das IFES, a evasão
representa um grave problema, pois reflete também o não aproveitamento dos
recursos públicos investidos na formação e capacitação da população.
Podendo as IFES, já no momento do ingresso do discente na instituição,
usufruir de algum instrumento que permita classificar, ainda que de forma
preliminar, o risco de evasão daquele discente, ações preventivas poderiam ser
tomadas visando uma maior eficiência na atuação da instituição e também
contribuindo para a evolução da educação superior, como um todo. A oferta de
subsídios desta natureza é possível por meio da Mineração de Dados (MD), um
campo de pesquisa emergente, com importantes aplicações para a engenharia,
ciência, medicina e, principalmente, educação (GARG; SHARMA, 2013).
Técnicas de MD podem ser usadas para garimpar padrões significativos,
porém visualmente indetectáveis ou incompreensíveis. Estes padrões podem,
então, ser convertidos em conhecimento. Cada negócio se beneficia da análise
de seus próprios dados (HAN; KAMBER; PEI, 2011), mas não existe uma
abordagem única que resolva todos os problemas da MD, o que torna a
escolha do método dependente do caso (DIAS, 2001). Neste trabalho
1.2 MOTIVAÇÃO
O investimento de recursos públicos em tecnologias inovadoras, que
visem a obtenção de diferenciais competitivos, nem sempre é vista com bons
olhos pela sociedade. Isto se deve, em parte, devido à precipitada conclusão
de que as instituições públicas, ao contrário do que ocorre com as empresas
privadas, não precisam investir em inovação e tecnologia como forma de
constituir vantagem competitiva perante a concorrência. Este posicionamento
é, em parte, responsável pela atual situação precária de algumas IFES.
Este raciocínio vai de encontro à ideia de que o resultado econômico
pode ser considerado a melhor medida de eficácia para qualquer tipo de
entidade, inclusive, para instituições de ensino públicas (SANTOS, 2002).
Desta forma, tem-se que a aplicação de técnicas de Mineração de Dados
Educacionais para tratamento da evasão, conforme proposto neste trabalho,
resulta numa melhor gestão dos recursos educacionais ofertados pelas IFES
caracterizando, assim, uma resposta sustentável ao problema.
Esta abordagem permite que as instituições utilizem dados que já
possuem para tratamento de problemas que afetam tanto a administração da
instituição como do país. A evasão é um problema complexo que, quanto mais
cedo for tratado, maior é a chance de sucesso (LOBO, 2012). Por esta razão, a
abordagem aqui proposta apresenta como principal diferencial a identificação
do risco de evasão do discente já no momento do ingresso do mesmo na
instituição, contribuindo para a evolução desta área de pesquisa notoriamente
No que diz respeito à Mineração de Dados, é importante mencionar que
diferentes métodos atendem diferentes propósitos e cada método oferece
vantagens e desvantagens que tornam sua escolha dependente do que se
espera obter como resultado após sua aplicação (DIAS, 2001). É neste sentido
que a definição de uma abordagem específica, direcionada para identificação
da evasão no contexto das IFES é relevante, do ponto de vista técnico.
Ainda em relação à proposição de um abordagem específica, tem-se
que certos aspectos particulares precisam ser definidos visando a adequação
da atividade de mineração ao cenário escolhido e aos resultados desejados
(DIAS, 2001). Em adição, é essencial a verificação da viabilidade da
abordagem, frente às limitações impostas por cada cenário específico.
O processo de definição de uma abordagem específica aqui proposto
passa pelo estudo do ambiente escolhido, com foco na compreensão das suas
regras de negócio e particularidades. Esta etapa é importante pois permite a
identificação dos atributos, isto é, das informações acerca dos discentes
ingressantes que devem ser utilizadas para submissão aos algoritmos
classificadores, visando a predição da ocorrência da evasão.
Em adição, do ponto de vista técnico, também é relevante para a
Mineração de Dados, a identificação dos algoritmos que oferecem os melhores
resultados com base nas informações a eles submetidas. O desempenho dos
algoritmos classificadores da Mineração de Dados pode variar de acordo com
sua capacidade de adequação aos dados fornecidos. Desta forma, a seleção
do algoritmo adequado não depende apenas do objetivo da aplicação, mas
1.3 PROBLEMA
Este trabalho procura responder à questão: "É viável aplicar técnicas de
Mineração de Dados para classificação do risco de evasão de discentes
ingressantes em Instituições Federais de Ensino Superior utilizando apenas
dados disponíveis no momento do ingresso do candidato na instituição?".
1.4 OBJETIVOS
De uma forma geral, este trabalho propõe a definição de uma
abordagem para Mineração de Dados que possa ser aplicada no ambiente das
Instituições Federais de Ensino Superior, com base nas particularidades do
ambiente escolhido, objetivando a classificação do risco de evasão dos
discentes ingressantes, de modo a oferecer subsídios à administração das
instituições para que estas possam propor ações para tratamento da evasão.
Já de uma forma mais específica, é possível citar os seguintes objetivos:
I. Compreender as regras de negócio inerentes ao cenário escolhido para
mineração, identificando as necessidades existentes;
II. Definir as estratégias para identificação e extração dos dados utilizados
para treinamento e teste dos algoritmos de mineração;
III. Selecionar as ferramentas e técnicas a serem utilizadas no processo de
preparação dos dados e aplicação dos algoritmos; e
IV. Avaliar a viabilidade da abordagem proposta por meio da análise dos
1.5 METODOLOGIA
Do ponto de vista científico, este trabalho adota uma metodologia de
pesquisa conforme descrita a seguir. É importante ressaltar que a metodologia
leva em consideração os objetivos definidos para este trabalho, isto é, a
proposição de uma abordagem para Mineração de Dados capaz de identificar
preliminarmente discentes ingressantes em Instituições Federais de Ensino
Superior com elevado risco de abandonar o sistema de ensino.
Desta forma, tem-se que a etapa que antecede a metodologia de
pesquisa proposta, consiste no estudo acerca do ambiente no qual o processo
de Mineração de Dados será conduzido, visando a compreensão de suas
particularidades. Este processo se dá durante a fundamentação teórica, por
meio da apresentação de um panorama geral acerca da educação superior no
país. A compreensão do contexto do negócio é prática recomendada para
Mineração de Dados (CHAPMAN et al., 2000). O objetivo é descobrir quais os
problemas que existem atualmente na área pesquisada e quais deles podem
ser tratados por meio da MD aplicada aos dados disponíveis.
Atendidos os pré-requisitos em relação ao estudo do ambiente onde
ocorrerá a Mineração de Dados, a próxima etapa da metodologia consiste na
escolha de um modelo genérico de Mineração de Dados que será utilizado
como base na construção da abordagem proposta. O modelo escolhido foi o
CRISP-DM, acrônimo para Cross Industry Standard Process for Data Mining. Trata-se de um modelo de processo proposto especificamente para a tarefa de
Em seguida, as etapas do modelo selecionado foram adaptadas para o
contexto escolhido com base nas particularidades do ambiente e dos
problemas que foram identificados. O modelo foi então aplicado no ambiente
selecionado para validação e testes, isto é, o ambiente da Universidade
Federal de Pernambuco (UFPE). Por fim, ocorreu a descrição do processo, que
caracteriza a apresentação da abordagem proposta e a definição dos
experimentos utilizados para avaliação da viabilidade da mesma, por meio da
análise dos resultados obtidos, tudo conforme mostra a Figura 1.1.
Figura 1.1 - Etapas da metodologia de trabalho
Do ponto de vista científico, tem-se que a viabilidade da abordagem
proposta é avaliada por meio do processo de experimentação, conforme
definido nas etapas da metodologia apresentada na Figura 1.1. Para tanto
foram definidos alguns experimentos, de acordo com as duas diretrizes abaixo.
Avaliação da abordagem proposta em cenários específicos, com e sem
limitação do tamanho da amostra de dados utilizada para treinamento e
teste dos algoritmos classificadores, objetivando observar o
comportamento dos resultados obtidos em cada cenário e;
Verificação dos resultados obtidos em cada experimento por meio da
replicação do mesmo com técnicas de amostragem distintas. As
técnicas de amostragem atuam na divisão dos dados de treinamento e
teste. Mais detalhes sobre as mesmas serão apresentados a seguir.
Os resultados dos experimentos conduzidos irão servir de guia para
avaliação do desempenho da abordagem proposta. A acurácia de classificação
com a qual os algoritmos são capazes de identificar corretamente os casos de
evasão, por meio do processo instituído na abordagem definida representa o
indicativo que valida ou não o desempenho do processo apresentado. Os
índices serão comparados com os obtidos por trabalhos semelhantes.
1.6 ESTRUTURA DA DISSERTAÇÃO
Do ponto de vista estrutural, esta dissertação está organizada em seis
O Capítulo I corresponde à introdução do trabalho e apresenta as
considerações iniciais sobre a pesquisa proposta;
O Capítulo II corresponde à fundamentação teórica e apresenta os
aspectos técnicos inerentes ao tema abordado;
O Capítulo III corresponde aos trabalhos relacionados e apresenta uma
série de pesquisas similares para justificativa e contextualização;
O Capítulo IV corresponde à abordagem proposta e apresenta, passo a
passo, as etapas do processo de Mineração de Dados sugerido;
O Capítulo V apresenta os experimentos e discute os resultados
observados durante a aplicação da abordagem proposta; e
O Capítulo VI corresponde às conclusões e apresenta as considerações
2. FUNDAMENTAÇÃO TEÓRICA
Este capítulo foca no estudo do contexto do ambiente escolhido para a
2.1 CONTEXTUALIZAÇÃO DO NEGÓCIO
De acordo com a CRISP-DM, uma das mais consagradas metodologias
para Mineração de Dados existentes no mercado, a primeira etapa do processo
de mineração deve corresponder à etapa de Entendimento do Negócio. O
objetivo desta etapa é a compreensão do problema a partir de uma perspectiva
do negócio onde o mesmo está inserido, para que uma posterior aplicação das
técnicas de Mineração de Dados possa ser conduzida com mais eficiência,
levando em consideração o cenário estudado (CHAPMAN et al., 2000).
Desta forma, tem-se que as chamadas IFES correspondem às
instituições que oferecem cursos de Ensino Superior e são mantidas pelo
Governo Federal, a exemplo das Universidades Federais e dos Institutos
Federais espalhados por todo território nacional e mantidas, majoritariamente,
por meio de verbas federais. Estas desempenham importante papel no
desenvolvimento científico e tecnológico do país e respondem por cerca de
90% da produção científica brasileira (MENEZES, SANTOS; 2002).
Sendo assim, é válido destacar que quaisquer problemas identificados
durante o estudo do cenário atual da educação superior no país afeta
diretamente as IFES e em proporções ainda mais sérias. Dada a importância
dessas instituições para o cenário nacional, é raro falar em ensino superior no
Brasil sem pensar nas IFES. Além disso, é importante lembrar que, no contexto
das IFES, recursos públicos estão em jogo e sua má utilização não afeta
somente a qualidade da educação no país, mas também é um tópico a ser
2.2 CENÁRIO DA EDUCAÇÃO SUPERIOR NO BRASIL
É inegável o crescente destaque que a educação como um todo tem tido
no Brasil nas últimas décadas. Destaque este que é, inclusive, natural e
decorrente da transformação na estrutura social brasileira que ocorreu no
começo do século XXI (POCHMANN, 2014), somada à evolução da educação
naturalmente esperada para um país em desenvolvimento. Naturalmente, com
o crescimento novos problemas e desafios surgem.
As mudanças na relação entre universidade, governo e mercado
evidenciam ainda mais o fato das universidades brasileiras, e também
latino-americanas, estarem inseridas num circuito reformador de grandes proporções
(LEHER, 2007). Conforme informações do portal oficial do INEP1 na Internet,
somente durante o governo Lula, no período de 2003 até 2010, foram editadas
23 portarias, dois decretos e aprovadas duas leis, para regulamentação da
avaliação e credenciamento de Instituições de Ensino Superior.
Isto significou, em grande parte, uma maior abertura do mercado para as
Instituições de Ensino Superior da iniciativa privada (SAMPAIO, 2011), que
passaram a ser avaliadas com mais refinamento pelo governo, o que refletiu no
aumento da qualidade das mesmas e consequente crescimento da oferta.
Crescimento este, que foi reforçado por meio dos incentivos oferecidos pelo
1
governo, como foi o caso do PROUNI2, um programa do Governo Federal
criado com o objetivo de conceder bolsas de estudo integrais e parciais em
cursos de graduação em Instituições Privadas de Ensino Superior, como forma
de complementar a oferta de acesso à educação superior, cada vez mais
insuficiente, que é oferecida pelo governo por meio das IFES.
Outro destaque é o FIES3, programa do Ministério da Educação cujo
objetivo é financiar a educação superior de estudantes matriculados em
instituições não gratuitas. Somados, FIES e PROUNI possuíam participação
em até 11% do total das matrículas na rede privada em 2010. Em 2013 este
percentual subiu para 31% das matrículas (BEMFICA, 2014).
Quando analisado o cenário da rede pública, da mesma forma que
ocorre na rede privada, evidências também apontam para o crescente
destaque da educação superior no país. É o que se constata quando da
criação do REUNI4 (LOBO, 2012), que visa integrar as universidades federais,
promover a ampliação da mobilidade estudantil e, sobretudo, ampliar a oferta.
Segundo dados do último Resumo Técnico disponível no site oficial do
Ministério da Educação (MEC), cuja elaboração ocorreu em 2014 sob a
responsabilidade do Instituto Nacional de Estudos e Pesquisas Educacionais
Anísio Teixeira (INEP) contendo dados colhidos no Censo da Educação
2
Programa Universidade Para Todos <http://siteprouni.mec.gov.br/> 3
Fundo de Financiamento ao Estudante do Ensino Superior <http://sisfiesportal.mec.gov.br/> 4
Superior referente ao ano de 2012, o ensino superior no Brasil atingiu
7.037.688 matrículas. Este número representa um crescimento de,
aproximadamente, 4,4% em relação ao ano anterior (MEC; INEP, 2014).
Conforme é possível constatar observando os números do Quadro 2.1,
o crescimento é ainda mais significativo quando analisada a evolução das
matrículas para o Ensino Superior no Brasil num panorama mais amplo. A
análise dos dados, referentes ao período de 2009 até 2012, que foram
consolidados e apresentados no Resumo Técnico publicado em 2014 confirma
a tendência do crescimento da educação superior no país (MEC; INEP, 2014).
Quadro 2.1 - Evolução das Matrículas no Ensino Superior
Fonte: Adaptado de MEC/INEP (2014)
Já o cenário mais recente é parcialmente coberto pelos dados
estatísticos preliminares divulgados pelo MEC em parceria com o INEP,
referentes ao Censo da Educação Superior de 2013. As informações
divulgadas previamente no site do INEP em setembro de 2014 revelam que o
total de alunos na educação superior brasileira chegou a 7,3 milhões em 2013,
o que significa quase 300 mil matrículas acima do registrado no ano anterior.
Ou seja, no período de 2012 até 2013, as matrículas cresceram 3,8%, sendo
Apesar da maior parcela de participação corresponder às matrículas
realizadas no setor privado do Ensino Superior, conforme mostrado a seguir na
Figura 2.1, é importante lembrar que, em última instância, esta parcela do mercado também deve seu crescimento aos investimentos feitos por meio de
recursos provenientes do governo federal. Como exemplo, é possível citar a já
mencionada relevante participação de programas como o FIES e o PROUNI
que em 2013 foram responsáveis por 31% das matrículas (BEMFICA, 2014).
Figura 2.1 - Comparação da Evolução das Matrículas
Fonte: Adaptado de MEC/INEP (2014)
Apesar do crescimento, a educação superior no Brasil ainda é um
problema, pois a oferta não atende à demanda e os gastos oriundos dos
investimentos em educação já estão atingindo seus respectivos limites. A
situação, é claro, se agrava diante da crise econômica que teve início no
primeiro semestre de 2015. Mesmo em 2009, as matrículas na educação
Educação (PNE), pois não atingiam o mínimo estabelecido de 30% em relação
à população na faixa de 18 a 24 anos (LOBO, 2012).
Este cenário revela, talvez, a importância de se atacar o problema a
partir de outra perspectiva. Os dados mostram um crescimento que depende
de altos investimentos para aumentar a oferta, seja ela pública ou privada. E
estes investimentos quase sempre saem do bolso do contribuinte, pois, como
mostrado, mesmo o aumento de matrículas no setor privado é, muitas vezes,
custeado por meio dos programas educacionais do governo. O que, inclusive,
reforça o que afirmou em entrevista o então Ministro da Educação no ano de
2013, Aloizio Mercadante: "O setor privado é maior, mas foi o setor público que
sustentou o crescimento" (TOKARNIA, 2013).
Outra possível maneira de colaborar para a evolução da educação
superior no país, está relacionada à eficiência das estratégias adotadas. É
sabido que a demanda e também a oferta na educação continuam crescendo
com o passar dos anos, como mostrado por meio da evolução dos quantitativos
de matrícula apresentados na Figura 2.1. No entanto, muitas destas matrículas
podem não representar um exemplo de bom aproveitamento dos recursos
empregados para tal finalidade. Esta questão é amplamente discutida no meio
administrativo, e aborda o tema da diferenciação entre eficiência e eficácia,
conceitos que devido à similaridade dos termos, são muitas vezes confundidos
ou julgados uma só coisa (CHIAVENATO, 1994).
Na administração, a eficácia pode ser entendida como uma medida
normativa do alcance dos resultados, enquanto a eficiência pode ser descrita
(CHIAVENATO, 1994). Desta forma, para o bem da eficiência na educação,
podem ser empregadas medidas alternativas que visem uma melhor aplicação
dos recursos já investidos. A ideia é promover uma melhoria na eficiência dos
recursos aplicados, de forma que cada uma das matrículas contabilizadas no
ensino superior reflitam, de fato, casos de bom aproveitamento acadêmico,
com a formação do aluno no prazo esperado, reduzindo, assim, a evasão.
2.3 CONHECENDO O PROBLEMA DA EVASÃO
Neste sentido, tem-se que uma das principais ameaças à eficiência do
ensino superior é a evasão (LOBO, 2012). Caracterizada pelo abandono dos
estudos por parte do discente, a evasão provoca o não aproveitamento dos
recursos investidos para manter o estudante durante o período em que esteve
ativo sendo, portanto, prejudicial para o ensino superior, como um todo,
especialmente no contexto das IFES, mantidas por meio de verbas públicas.
O foco no combate à evasão como proposta de melhoria para a
educação é justificável, também, devido ao fato de que a expansão na rede
federal de educação tem proporcionado, desde 2006, a democratização da
oferta de vagas. Com isso, para fortalecer a ação educacional, torna-se
necessário agora um olhar sobre a qualidade do ensino, com ênfase na
permanência e êxito dos estudantes no processo educativo (MEC, 2014).
Do ponto de vista social e educacional, é possível relacionar a evasão
com o atual déficit nacional de mão de obra especializada. Trata-se de uma
questão multifacetada, no entanto, fica clara sua relação com as elevadas
fato é que o número de vagas oferecidas pelas universidades cresce a cada
ano, em contrapartida, o número de formados diminuiu (MEC; INEP, 2014).
O Governo Federal, por meio do Ministério da Educação caracteriza a
evasão e define sua ocorrência com base em três modalidades (MEC, 1997):
Evasão de curso - Trata-se da evasão no nível do curso e é
caracterizada quando o discente abandona o curso escolhido. Pode ser
configurada apenas pela troca de um curso por outro. Costuma possuir
maior impacto quando se objetiva o tratamento da evasão para um curso
específico, por exemplo, em trabalhos que buscam combater a evasão
no âmbito dos cursos de Ciência da Computação.
Evasão da instituição - Trata-se da evasão no nível da instituição de
ensino e é caracterizada quando o discente abandona uma determinada
instituição. Pode ser configurada apenas pela troca de uma instituição
por outra. Costuma possuir maior impacto quando a evasão é analisada
do ponto de vista da instituição. Possui menor impacto pessoal para o
discente e para o ensino superior, como um todo, uma vez que a efetiva
formação do discente não está, necessariamente, comprometida.
Evasão do sistema - Trata-se da evasão no nível do sistema de ensino e
é caracterizada quando o discente abandona de forma definitiva ou
temporária os estudos. É o nível de evasão com maior impacto,
especialmente para as Instituições Federais de Ensino Superior. A
ocupação de uma vaga em uma universidade pública seguida do
abandono da mesma configura um grave problema que independe da
2.4 INTRODUÇÃO À MINERAÇÃO DE DADOS
Nas mais diversas áreas de atuação, os dados computacionais estão
sendo coletados e acumulados em um ritmo cada vez mais dramático. Isto gera
uma necessidade de novas teorias computacionais e ferramentas para auxiliar
e viabilizar a extração de informações úteis a partir do crescente volume de
dados digitais disponíveis (HAN; KAMBER; PEI, 2011).
Cada negócio se beneficia a partir da coleta e análise de seus próprios
dados. Hospitais, por exemplo, podem encontrar padrões e anomalias em seus
registros de pacientes, enquanto mecanismos de busca podem, por exemplo,
melhorar seus sistemas de posicionamento de resultados e estratégia para
publicidade por meio desta análise (HAN; KAMBER; PEI, 2011).
É neste contexto que atua a Descoberta de Conhecimento em Bancos
de Dados, também conhecida como Knowledge Discovery in Databases que
utiliza os dados contidos em grandes bases para descobrir padrões e revelar
informações antes desconhecidas (FAYYAD; PIATETSKY-SHAPIRO; SMYTH,
1996). Apesar da comum utilização dos termos KDD (Knowledge Discovery in
Databases) e DM (Data Mining) como sinônimos válidos para a maioria das situações, o fato é que o termo Data Mining pode ser entendido como sinônimo
ou como uma etapa do KDD. Existem definições que esclarecem a questão,
separando o conceito específico de Mineração de Dados do conceito global de
Descoberta de Conhecimento em Bancos de Dados.
Ocorre que, enquanto KDD é o processo global de extração de
Dados corresponde a uma etapa em particular do KDD na qual a identificação
de padrões é realizada por meio da aplicação de algoritmos de inteligência
artificial (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).
A Mineração de Dados pode ser definida, de forma resumida, como o
processo parcialmente automático de descoberta de padrões, associações,
mudanças, anomalias, estruturas estatísticas significativas e eventos nos
dados (ZAKI; WONG, 2003). O foco do processo de Mineração de Dados
reside em encontrar padrões ocultos que possam ser considerados relevantes
para o interesse do negócio. Para tanto, o processo é composto pelas etapas
de seleção, análise, preparação, aplicação, interpretação e avaliação dos
resultados (BALA SUNDAR V; DEVI; SARAVANAN, 2012).
Sendo caracterizado como um procedimento investigativo, a Mineração
de Dados objetiva a análise da informação relacionada à área de atuação onde
o negócio está inserido. Como já dito, o principal objetivo da Mineração de
Dados é a descoberta de padrões que, uma vez revelados, possam ser
utilizados no futuro para auxiliar em certas decisões que contribuam para o
desenvolvimento do modelo de negócio (PUSHPANJALI; NAYAKI, 2015).
O processo de Mineração de Dados sempre objetiva a expectação,
desta forma, a mineração de informações preditivas é o mais conhecido
produto (tipo de informação extraída) dentre os possíveis de se obter por meio
da aplicação de alguma técnica para Mineração de Dados. Além disso, ele é
um dos produtos que mais apresenta significativo grau de aplicabilidade direta
Um importante aspecto a ser ressaltado no âmbito da Mineração de
Dados é que os resultados minerados devem possuir certas características.
Eles devem ser válidos, novos, úteis e compreensíveis. Estas qualidades têm
sua importância justificada por uma série de razões, conforme descritas a
seguir (ZAKI; WONG, 2003):
Válidos - É crucial que os padrões, regras e modelos descobertos sejam
válidos. A validade se faz necessária não apenas nas amostras de
dados já examinadas. É preciso também que seja possível a
generalização de forma que as regras, padrões e modelos permaneçam
válidos em amostras de dados futuras. Somente desta forma, estes
padrões poderão ser considerados significativos.
Novos - É desejável que os padrões, regras e modelos descobertos
ainda não sejam de conhecimento dos especialistas. De outra forma,
eles iriam revelar muito pouco do ponto de vista de informações
verdadeiramente inéditas acerca das amostras de dados examinadas e
do problema que se busca resolver.
Úteis - É desejável que os padrões, regras e modelos descobertos
permitam a tomada de ações significativas, isto é, úteis do ponto de vista
do negócio. Um exemplo seria a descoberta de padrões, regras e
modelos que permitam a predição confiável de eventos futuros.
Compreensíveis - É desejável que os padrões, regras e modelos
descobertos, quando dos seus resultados interpretados, permitam
conduzir o analista até uma nova descoberta sobre as amostras de
2.5 OBJETIVOS DA MINERAÇÃO DE DADOS
O processo de Mineração de Dados pode ser conduzido de várias
maneiras distintas, de acordo com os objetivos que se deseja alcançar com a
aplicação da técnica. Alguns autores acreditam existir, basicamente, dois
grandes grupos de objetivos possíveis com a Mineração de Dados, conforme
descritos abaixo (ZAKI; WONG, 2003):
I. Atingir uma capacidade preditiva confiável, ou seja, buscar responder
quais fenômenos podem vir a acontecer; e
II. Alcançar uma descrição compreensível, ou seja, identificar a razão de
fenômenos já conhecidos acontecerem da forma como acontecem.
Outra definição diz respeito às abordagens possíveis durante a etapa de
Mineração de Dados, que por sua vez, conduzem a diferentes objetivos. A
primeira abordagem é conhecida como top-down ou teste de hipótese. Nela,
já existe uma hipótese e a Mineração de Dados é aplicada com o objetivo de
confirmá-la ou refutá-la (CÔRTES; PORCARO; LIFSCHITZ, 2002).
Já na segunda abordagem chamada bottom-up, mas também conhecida
como busca de conhecimento, utiliza-se técnicas para exploração dos dados,
objetivando a descoberta de alguma informação nova, desconhecida
anteriormente e cuja existência não foi prevista por nenhuma hipótese. Há
também uma terceira abordagem conhecida como abordagem híbrida, que é a
2.6 TÉCNICAS PARA MINERAÇÃO DE DADOS
Para obtenção dos resultados desejados, diversas técnicas diferentes
podem ser aplicadas no processo de Mineração de Dados propriamente dito,
além das diferentes abordagens que já existem para o processo global de
KDD, tais como técnicas para seleção, limpeza e preparação dos dados.
Atualmente a literatura prevê inúmeras técnicas para a etapa de Mineração de
Dados com diferentes aplicações e resultados. Cada técnica privilegia uma
determinada estratégia de ação, a exemplo das duas relevantes tarefas da
Mineração de Dados exemplificadas abaixo (RAMAGERI, 2011):
Classificação - Técnica para Mineração de Dados que utiliza um
conjunto de exemplos pré-classificados para desenvolver um modelo
capaz de classificar, posteriormente, registros em larga escala.
Clustering - Também conhecida como agrupamento, possui como
principal diferença em relação à classificação, o fato de não utilizar
exemplos pré-classificados, identifica classes similares de objetos por
meio da observação da organização dos objetos no espaço.
A aplicação de uma das tarefas acima apresentadas, por exemplo,
compõe o processo de definição da técnica de Mineração de Dados a ser
utilizada. Cada tarefa favorece um determinado objetivo e possui uma
aplicação adequada para tratar casos específicos, sendo crucial a sua escolha
para o sucesso da atividade de mineração e para a eficácia do processo global
de Descoberta de Conhecimento em Banco de Dados. A classificação, por
risco de crédito e detecção de fraude. Já o clustering pode ser utilizado para
agrupar clientes com base nos seus padrões de compra ou categorizar genes
que possuem funções genéticas similares (RAMAGERI, 2011).
É possível entender a classificação como uma técnica de aprendizado
supervisionada na qual os dados são mapeados em grupos pré-definidos. A classificação é comumente utilizada para desenvolver um modelo que possa
classificar corretamente um conjunto grande de registros. Os algoritmos de
classificação necessitam que as classes sejam definidas baseadas nos valores
de atributos presentes nos dados. É possível descrever as classes com base
nas características dos dados cujo enquadramento em determinada classe já é
de conhecimento dos analistas. O algoritmo de treinamento para classificação
utiliza estes exemplos pré-definidos para determinar o conjunto de parâmetros
requeridos para a correta classificação dos demais (GARG; SHARMA, 2013).
Já o clustering pode ser entendido como o processo de agrupar dados
em classes de forma que todos os objetos contidos no agrupamento possuam
alto teor de semelhança quando comparados aos demais contidos no mesmo
agrupamento, mas baixo teor de semelhança quando comparados a objetos
contidos em outros agrupamentos. As diferenças são observadas com base no
valor dos atributos que descrevem os objetos, muitas vezes distantes. Desta
maneira, é possível entender um agrupamento como uma coleção de objetos
de dados que apresentam semelhanças entre si e diferenças quando
comparados com objetos de outros agrupamentos (GARG; SHARMA, 2013).
Em contraste com a técnica de classificação, pode-se dizer que o
a expor os agrupamentos naturais dos dados. A clusterização - neologismo
em português que corresponde à técnica de mesmo nome em inglês - é
frequentemente utilizada em aplicações de Mineração de Dados que objetivam
a descoberta de padrões em conjuntos de dados (GARG; SHARMA, 2013).
É comum quando do estudo das tarefas ou técnicas da Mineração de
Dados, a apresentação de outras definições tais como regressão, estimação,
predição, agrupamento, segmentação entre outros. No entanto, objetivando a simplificação dos conceitos, é possível classificar estas tarefas como
variações das tarefas acima descritas (classificação e clustering) uma vez
que representam técnicas similares com apenas algumas pequenas variações
em casos específicos ou quando definidas por literaturas distintas.
É importante lembrar que o processo de escolha que busca definir quais
técnicas de Mineração de Dados deve-se aplicar, depende majoritariamente da
tarefa de mineração a ser empregada, sendo a tarefa a essência da técnica
aplicada. As exigências inerentes às tarefas de mineração e às suas
características influenciam a viabilidade entre os métodos de mineração e os
problemas de negócio (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996).
Outro aspecto relacionado às técnicas existentes para Mineração de
Dados diz respeito à escolha do algoritmo que deverá ser aplicado. O processo
de Data Mining faz uso de sofisticadas ferramentas para permitir a análise de
dados, sempre objetivando a descoberta de padrões e a identificação de
relacionamentos em grandes conjuntos de dados. Estas ferramentas são muito
mais do que sínteses básicas ou consultas ao banco, são, na verdade,
2.7 ALGORITMOS PARA MINERAÇÃO DE DADOS
Diferentes tipos de algoritmos de mineração foram propostos ao longo
dos anos (HAN; KAMBER; PEI, 2011). Um único algoritmo pode não atender
todos os casos devido à dificuldade de adequação dos tipos de dados. Sendo
assim, a seleção de um algoritmo correto depende não apenas do objetivo da
aplicação, mas também da compatibilidade dos dados (GARG; SHARMA,
2013), desta forma, é possível obter um desempenho único para cada caso.
Abaixo são apresentados alguns algoritmos classificadores notórios.
Naive Bayes - Recebe esse nome por ter sua base no teorema da
probabilidade de Baye (HAN; KAMBER; PEI, 2011). De uma forma geral,
possui como principal aplicação calcular a probabilidade de que uma
amostra desconhecida pertença a uma classe já conhecida de objetos.
Suponha que R seja uma registro considerado evidência. Neste caso, H
seria a hipótese de que o registro R pertence a uma classe C, já
previamente especificada. Determina-se que P é a probabilidade de que
a hipótese H se sustente, dada as evidências do registro R. Este tipo de
predição é chamado de predição estatística (GARG; SHARMA, 2013).
Classification Tree - Trata-se de uma estrutura em forma de fluxograma
com variações muito utilizadas na área de aprendizado de máquina. De
uma forma geral, numa árvore de decisão, cada nó representa um teste
sobre o valor de um atributo. Continuando a analogia, tem-se que cada
Já as folhas (ou ramos terminais) simbolizam as classes nas quais os
dados podem ser organizados (HAN; KAMBER; PEI, 2011).
SVM - Sigla para Support Vector Machine, o SVM é um conhecido
método para classificação tanto de dados lineares como não lineares.
Apresentado por Vladmir Vapnik em 1992, também pode ser usado para
predição numérica (HAN; KAMBER; PEI, 2011).
K Nearest Neighbors - Este método foi descrito pela primeira vez no
começo da década de 1950, mas não ganhou popularidade até a
década de 1960, quando o poder computacional disponível cresceu
bastante. Possui como principal particularidade o fato de que não
constrói, de imediato, um modelo a partir dos dados submetidos para
treinamento, aguardando a submissão dos dados para teste. Somente
de posse destes é que a classificação ocorre, com base na similaridade
dos registros apresentados (HAN; KAMBER; PEI, 2011).
Logistic Regression - Variação da regressão linear, a regressão
logística afere a relação entre variáveis e estima probabilidades por meio
de uma função logística. No âmbito da Mineração de Dados pode ser
definido como método para classificação estatística que enquadra dados
em uma função logística (HAN; KAMBER; PEI, 2011).
Random Forest Classification - Pode ser entendido como uma coleção
de árvores de decisão (decision trees). As estruturas de cada árvore
individual são geradas a partir de uma seleção randômica de atributos,
daí o nome. Durante a classificação o resultado de cada árvore
2.8 METODOLOGIAS PARA MINERAÇÃO DE DADOS
Na tentativa de propor uma metodologia capaz de fornecer orientações
quanto ao planejamento, aplicação e avaliação de uma atividade de Mineração
de Dados, diversos autores começaram a construir seus modelos. No entanto,
poucos modelos genéricos surgiram. Um modelo genérico pode ser definido
como uma metodologia para Mineração de Dados cuja aplicação possa ser
adaptada para as mais diversas áreas dos negócios.
O fato é que, não existe uma abordagem única que resolva todos os
problemas da Mineração de Dados. Diferentes métodos atendem diferentes
propósitos e cada método oferece suas vantagens e suas desvantagens, sendo
a escolha dependente do problema que se deseja enfrentar e também do que
se espera obter como resultado após a mineração (DIAS, 2001).
É possível entender os projetos de Mineração de Dados como projetos
que possuem características bastante específicas (DIAS, 2001) e que reúnem
diversas disciplinas, envolvendo áreas de conhecimento muitas vezes pouco
exploradas em conjunto. Fica evidente que uma abordagem direcionada
auxilia, não somente nas questões ligadas à documentação do projeto, mas
também serve como um roteiro para futuros projetos de natureza similar.
Mesmo propondo a definição de abordagens específicas para cada
caso, nada impede que estas se baseiem em metodologias de mineração já
consagradas. No âmbito da Mineração de Dados, uma tentativa de metodologia
que busca atender às particularidades causadas pela multidisciplinaridade
Industry Standard Process for Data Mining um modelo de processo proposto especificamente para a Mineração de Dados (CHAPMAN et al., 2000).
Uma metodologia que poderia fazer frente à CRISP-DM seria a SEMMA,
acrônimo para Sample, Explore, Modify, Model and Assess ou em português
Amostra, Exploração, Modificação, Modelagem e Avaliação. Trata-se de um
modelo com passos sequenciais para as atividades de Mineração de Dados. A
metodologia foi desenvolvida pela SAS Institute Inc5 uma das maiores
companhias da áreas de Bussiness Inteligence. Ainda assim, conforme mostra
a Figura 2.2, pesquisas apontam que a utilização do SEMMA chegou a ser
cinco vezes menor do que o CRISP-DM em 2014 (KDNUGGETS, 2014).
Figura 2.2 - Comparativo da Utilização de Metodologias de MD
Fonte: Adaptado de KDNUGGETS.com (2014)
Tendo em vista sua ampla utilização somada ao fato de se tratar de uma
metodologia desenvolvida para atender as necessidades dos mais diversos
casos possíveis para um projeto de Mineração de Dados, a apresentação de
5
algumas etapas propostas pela CRISP-DM é válida. Por se tratar de um
processo relativamente bem definido, diversas orientações sobre cada etapa
são fornecidas, conforme resumidas a seguir (CHAPMAN et al., 2000):
Compreensão do negócio - Esta fase inicial foca na compreensão dos
objetivos do projeto e dos requerimentos necessários, do ponto de vista
do negócio. Só então este conhecimento será utilizado para definição de
um problema dentro da perspectiva da Mineração de Dados e de uma
estratégia preliminar para alcançar os objetivos.
Compreensão dos dados - A etapa de compreensão dos dados
começa com uma coleta de dados inicial e tem sua continuidade nas
atividades que buscam a familiarização com os dados, a identificação de
possíveis problemas na qualidade dos dados, a elaboração de palpites
iniciais acerca dos dados e a detecção de conjuntos interessantes para
formar hipóteses sobre informações ocultas.
Preparação dos dados - A fase de preparação dos dados abrange
todas as atividades necessárias para a construção do conjunto de dados
final, isto é, o conjunto de dados que será submetido às ferramentas de
modelagem. As tarefas de preparação de dados costumam ser repetidas
quantas vezes forem necessárias e não possuem uma ordem precisa
para ocorrerem. Alguns modelos podem exigir formatos específicos dos
dados. Por esta razão, o retorno à etapa de preparação dos dados é
comum quando se está na etapa seguinte de modelagem. Estas tarefas
incluem a seleção de tabelas, registros e atributos assim como a limpeza
Modelagem - Nesta importante etapa várias técnicas para modelagem
são selecionadas e aplicadas sobre os dados que foram selecionados e
preparados no decorrer das etapas anteriores. Os parâmetros inerentes
ao modelo proposto são calibrados ao longo desta etapa, tendo em vista
a otimização dos valores obtidos como resultado da aplicação do
mesmo. Existem várias técnicas para o mesmo problema de Mineração
de Dados e algumas técnicas possuem requerimentos específicos
quanto ao formato dos dados. Por esta razão, como já foi dito
anteriormente, um eventual retorno para a etapa de preparação dos
dados costuma ser necessário durante o processo de modelagem.
Avaliação - Esta etapa ocorre após a aplicação de pelo menos um
modelo que aparente resultar em alto valor do ponto de vista da análise
da informação. Antes de proceder para o desdobramento final do
modelo é importante avaliar de forma mais rigorosa o modelo escolhido
e revisar os passos executados para construir o modelo para
certificar-se de que ele alcança adequadamente os objetivos do negócio. Apesar
de seus objetivos lembrarem os objetivos da etapa anterior, na qual os
modelos são propostos e otimizados, a etapa de avaliação é
extremamente importante, pois com ela é possível determinar se existe
algum problema relevante do negócio que não tenha sido atendido de
forma satisfatória pelo modelo proposto. Ao final desta etapa será
possível decidir acerca da utilização ou não dos resultados obtidos com
a aplicação do modelo proposto. Afinal de contas, a aprovação do
modelo implica também na aceitação e consequente utilização das
Desdobramento - Por fim, na etapa de desdobramento constata-se que
a criação do modelo não costuma ser o fim do projeto. Mesmo se o
propósito do modelo for expandir o conhecimento acerca dos dados
estudados, o conhecimento recebido precisará ser organizado e
apresentado de uma forma que seja útil para os interessados.
Dependendo dos requisitos, a fase de desdobramento pode se resumir à
elaboração de um relatório ou ser tão complexa ao ponto de exigir uma
implementação de um sistema de pontuação de dados ou tarefa de
Mineração de Dados possível de repetição. Na maioria dos casos será o
cliente (ou a parte interessada nas informações do negócio) e não o
analista de dados quem irá conduzir a etapa de desdobramento. Mesmo
que o analista seja o responsável, é importante que a parte interessada
compreenda as ações que serão necessárias para por em uso os
modelos criados e colher os resultados desejados.
As fases do CRISP-DM e suas respectivas relações, dependências e
sequência sugerida estão representados na Figura 2.3. É importante lembrar
que a sequência entre as fases não é rígida. Desta forma, pular ou avançar
etapas pode ser necessário. As flechas indicativas de sequência no diagrama
do processo CRISP-DM representado pela Figura 2.3 apontam simplesmente
as dependências mais importantes ou mesmo mais frequentes entre duas
fases distintas. Conforme representado pela flecha circular que envolve todo o
diagrama, o CRISP-DM respeita também a natureza cíclica do processo de
Mineração de Dados, podendo o processo global ser repetido quantas vezes
for necessário ou mesmo empregado mais de uma vez de forma diferente e
Figura 2.3 - Etapas do processo CRISP-DM
Fonte: Adaptado de CRISP-DM (2000)
Mesmo com o projeto descontinuado em junho de 2015, as contribuições
propostas pelo CRISP-DM continuam sendo adotadas, porém cada vez mais
cresce sua utilização como base para o desenvolvimento de abordagens
direcionadas, já que estas costumam atender melhor problemas específicos.
2.9 CONSIDERAÇÕES FINAIS
Neste capítulo foram apresentadas as principais matérias relacionadas
ao objeto de estudo desta dissertação. Inicialmente, foi conduzido um estudo
acerca do ambiente escolhido para a aplicação das técnicas de Mineração de
Dados proposta. Este estudo objetivou o alinhamento com o que propõe a
literatura, isto é, o entendimento do negócio e particularidades inerentes ao
ambiente no qual o mesmo está inserido antes da atividade de mineração.
Em seguida foram estudados alguns aspectos técnicos relacionados ao
processo de Mineração de Dados. O objetivo foi apresentar e discutir algumas
das abordagens mais comuns no mercado. Por fim, foram apresentadas
algumas metodologias já existentes para Mineração de Dados com o intuito de
aproveitar algumas boas práticas já definidas durante a condução do processo
de mineração, que será descrito conforme a abordagem proposta.
Uma vez compreendidos os aspectos técnicos inerentes a matéria objeto
de estudo deste trabalho, com base no que foi exposto neste capítulo, é
possível, agora, analisar produções correlatas inseridas neste mesmo contexto
de pesquisa. Para tanto, o próximo capítulo apresenta alguns trabalhos
relacionados, assim considerados os que possuem objetivos ou metodologia
3. TRABALHOS RELACIONADOS
Este capítulo possui como foco a análise de trabalhos relacionados, com
3.1 CONSIDERAÇÕES INICIAIS
Objetivando a verificação da pertinência e contemporaneidade da linha
de pesquisa proposta, serão analisados aqui alguns trabalhos correlatos cujas
abordagens estejam, de alguma forma, relacionadas ao tema tratado neste
trabalho. Para tanto, foram definidos alguns critérios para seleção das
produções analisadas, visando um melhor alinhamento dos objetivos.
Primeiramente, deu-se preferência as produções mais recentes dentre
as encontradas que tratam o tema da Mineração de Dados. O objetivo é avaliar
a relevância do tema de acordo com cenário atual de pesquisa, tendo em vista
os desafios, abordagens e soluções mais recentes dentre os propostos,
evitando, desta forma, a análise de produções já ultrapassadas.
Em adição, foi dada preferência as produções que apresentam uma
abordagem mais direcionada da Mineração de Dados. Ou seja, produções que
tratem da utilização da Mineração de Dados no meio acadêmico ou
educacional. Por fim, buscou-se trabalhos cujos objetivos envolvam, de alguma
forma, o tratamento da evasão por meio da Mineração de Dados, sempre
dando preferência as publicações mais recentes dentre as encontradas.
Outro critério empregado durante a seleção dos trabalhos foi a
diversidade da natureza dos mesmos. Visando a obtenção de uma coleção de
trabalhos heterogênea que permita uma análise imparcial do tema, foram
selecionadas publicações dos mais variados tipos: estudos bibliométricos,
propostas de soluções similares, teses de doutorado, discussões apresentadas
3.2 BAKER; ISOTANI; CARVALHO (2011)
Em Baker, Isotani e Caravalho (2011) os autores apresentam um estudo
focado na área de Mineração de Dados Educacionais, isto é, a aplicação da
Mineração de Dados no contexto da Educação. Os autores esclarecem que a
Mineração de Dados Educacionais é uma área de pesquisa atual que tem
como principal objetivo o desenvolvimento de métodos para explorar conjuntos
de dados coletados em ambientes educacionais.
O artigo discute a atual relevância desta área de pesquisa inovadora, e
apresenta as dificuldades e oportunidades no cenário nacional. A partir do
exposto no artigo, é possível identificar que, atualmente, a Mineração de Dados
Educacionais vem se estabelecendo como uma linha de pesquisa em
ascensão e que possui grande potencial para ajudar na melhoria da qualidade
do ensino. Ainda assim, os autores apontam a carência de publicações
nacionais na área e discutem os benefícios que poderiam ser alcançados.
Os autores apresentam uma revisão das pesquisas recentes realizadas
na área, com ênfase na identificação das aplicações e métodos mais
recorrentes. Após a análise das publicações, em sua conclusão, o artigo
destaca os trabalhos que propõem o desenvolvimento de métodos mais
eficazes para dar suporte à aprendizagem quando o aluno estuda utilizando
software educacional, como no caso da Educação a Distância. Desta forma,
tem-se que o exposto no artigo reforça a proposta deste trabalho, tanto do
ponto de vista da relevância da linha de pesquisa, como da necessidade de
3.3 RIGO; CAZELLA; CAMBRUZZI (2012)
Em Rigo, Cazella e Cambruzzi (2012) os autores apresentam um
relevante levantamento que compreende o estado da arte acerca do tema
'Mineração de Dados e evasão escolar', com ênfase nos desafios,
oportunidades e necessidades da área. O artigo foi proposto em resposta ao
tema do IV Desafio da Sociedade Brasileira de Computação (SBC) que aborda
a questão do acesso participativo e universal do cidadão brasileiro ao
conhecimento. A pesquisa foi apresentada durante o Workshop de Desafios da
Computação Aplicada à Educação, que ocorreu em 2012.
Os autores destacam a relevância e contemporaneidade da linha de
pesquisa abordada. O artigo apresenta uma análise das possíveis melhorias na
aplicação das técnicas de Mineração de Dados Educacionais, objetivando que
os resultados obtidos por meio de tal técnica possam apoiar, de forma efetiva,
processos de detecção de comportamentos ligados à evasão escolar. Os
autores enfatizam ainda a importância do desenvolvimento de soluções que
possibilitem um diagnóstico precoce da evasão, bem como a realização de
ações pedagógicas relevantes, por parte das instituições de ensino.
Em conclusão, os autores apontam que existe possibilidade para
utilização de abordagens combinadas para Mineração de Dados Educacionais.
No entanto, mais pesquisas que promovam a exploração de algoritmos,
mecanismos e técnicas são necessárias para que sejam alcançados resultados
ainda mais abrangentes e úteis, de forma a contribuir com a mitigação da
3.4 SANTOS; SIEBRA; OLIVEIRA (2014)
Em Santos, Siebra e Oliveira (2014) os autores propõem uma
abordagem de Mineração de Dados para identificação de casos de evasão, por
meio das informações disponíveis em Ambientes Virtuais de Aprendizagem
(AVA). Trata-se de uma proposta para identificação da evasão no contexto dos
cursos da modalidade Educação a Distância (EaD) com utilização exclusiva de
dados acadêmicos variantes no tempo acerca dos discentes.
Ao analisar o artigo citado e os resultados obtidos, é possível identificar
como principal vantagem a grande coleção de dados disponibilizada pelas
ferramentas utilizadas na modalidade Educação a Distância (EaD), em especial
os Ambientes Virtuais de Aprendizagem (AVA). Ao contrário do que se observa
para os Sistemas de Gestão Acadêmica (SGA) tradicionais utilizados na
Educação Presencial, os AVA produzem uma enorme quantidade de dados
(logs) acerca da participação dos discentes, não só no que se refere ao
desempenho acadêmico, mas também: frequência de acesso à plataforma,
registro de interações com o docente e até mesmo conteúdo das atividades.
O artigo também defende a relevância da utilização da Mineração de
Dados para tratamento da evasão e destaca a grande quantidade de trabalhos
que focam na Educação a Distância e utilizam dados provenientes de AVA.
Desta forma, tem-se que a abordagem aqui apresentada é relevante,
especialmente, por atuar fora do contexto da EaD e tratar os desafios e
limitações inerentes aos SGA tradicionais usados na Educação Presencial,
3.5 MACHADO ET AL (2015)
Em Machado et al. (2015) os autores apresentam um estudo
bibliométrico focado na área de Mineração de Dados Educacionais. Neste
trabalho, especificamente, foi feito um levantamento de várias pesquisas
recentes que utilizam a Mineração de Dados para tratar, das mais variadas
maneiras, temas relacionados à evasão nos vários níveis da educação. Em
contraste ao proposto por Baker, Isotani e Carvalho (2011), este trabalho não
se limita ao estudo da área no contexto nacional, apresentando diversos
trabalhos internacionais com ênfase na aplicação da Mineração de Dados
Educacionais para tratamento de temas relacionados à evasão.
O artigo é especialmente importante, pois apresenta tópicos relevantes
para a área de pesquisa em questão, além de ser bastante atual, tendo sido
apresentado em agosto de 2015 no XI Congresso Nacional de Excelência em
Gestão. Os autores conduziram uma pesquisa nos mais respeitados
repositórios científicos, usando diferentes termos. Do total dos trabalhos
levantados, mais de 36% foram publicados nos últimos dois anos.
Os autores apontam que, embora haja uma carência de trabalhos na
área, houve significativo aumento do interesse pela mesma, conforme mostrou
o crescente número de publicações registradas nos últimos anos. Em um dos
repositórios buscados, observou-se que mais da metade (54,04%) dos artigos
foram publicados entre 2013 e 2014. Após o levantamento, os autores
concluíram que a Mineração de Dados Educacionais para tratamento da