4. ABORDAGEM PROPOSTA
4.7 CONSTRUÇÃO DO MODELO PARA MINERAÇÃO
Conforme já mencionado durante a apresentação da ferramenta para
Mineração de Dados escolhida, no Orange o modelo de Mineração de Dados é
representado por meio de um fluxograma contendo toda a estrutura do
processo de mineração com todas as etapas de configuração, visualização e
operação aos quais são submetidos os dados, incluindo, mas não limitado à
aplicação de algoritmos específicos, visualização dos dados em determinado
estágio do fluxo, apresentação de resultados e estatísticas sobre modificadores
aplicados aos dados, segregação da amostragem para treinamento e teste,
entre diversas outras etapas inerentes ao processo de mineração.
Desta forma, após diversas experimentações com configurações
diferentes, foi estabelecido um modelo para o fluxograma de Mineração de
Dados com base nos objetivos propostos, conforme mostra a Figura 4.4. O
modelo estabelecido realiza a importação dos dados através do widget file. Em
widget select columns e só então utiliza-se o widget data table para visualizar e validar os dados que serão transmitidos para o widget test & score.
Figura 4.4 - Fluxograma do modelo de mineração
Fonte: O Autor (2016)
Por meio do widget test & score é possível submeter os dados aos
algoritmos classificadores já apresentados durante a seção de fundamentação
teórica (Naive Bayes, Classification Tree, SVM, K Nearest Neighbors, Logistic
Regression e Random Forest Classification) utilizando técnicas diferentes de amostragem. Esta etapa é essencial, pois é nela que os dados serão divididos,
sendo um grupo enviado para treinamento do algoritmo classificador, e outro
grupo reservado para teste da predição oferecida pelo algoritmo em questão.
Para tanto, foram usadas as seguintes técnicas para amostragem dos dados:
Cross-validation - Nesta técnica um único conjunto de dados é dividido
em um determinado número de subconjuntos. Cada subconjunto é
reservado por vez e então utilizado para testar o desempenho do
algoritmo, enquanto os demais fornecem subsídios para construção do
modelo de classificação do algoritmo, isto é, são utilizados para o
treinamento do algoritmo (ORANGE, 2016). Por exemplo, são
importados os dados dos discentes ingressos num determinado período.
Os dados são então divididos em cinco subconjuntos. O primeiro
subconjunto é reservado. O algoritmo irá inferir o modelo de
classificação a partir dos subconjuntos restantes e então classificar o
primeiro subconjunto. O processo será repetido até que todos os
subconjuntos sejam classificados. Nesta abordagem o algoritmo nunca
irá classificar um registro com base no treinamento do mesmo registro.
Random sampling - Nesta técnica um único conjunto de dados é dividido
em dados para treinamento e dados para teste de forma aleatória, de
acordo com uma proporção determinada. O processo é então repetido
por um número determinado de vezes (ORANGE, 2016). Por exemplo,
são importados os dados de todos os discentes ingressos em um
determinado período. É estabelecida uma proporção para teste e
treinamento, por exemplo, 30% dos registros para treinamento e 70%
para teste. Os dados são então divididos nas proporções estabelecidas
fornecer o modelo a partir do qual serão classificados os registros no
conjunto de teste. Todo o processo é então repetido por um determinado
número de vezes, de acordo com as configurações. Nesta abordagem,
assim como ocorre na anterior, o algoritmo nunca irá classificar um
registro com base no treinamento do mesmo registro.
Separeted test data - Nesta técnica, um segundo conjunto de dados
deve ser importado e este será reservado exclusivamente para
classificação, enquanto apenas o primeiro fornecerá os subsídios
necessários para treinamento dos algoritmos (ORANGE, 2016). É a
técnica que será utilizada na prática pelas IFES quando da aplicação
efetiva da abordagem proposta, pois o objetivo será prever as situações
finais desconhecidas com base no treinamento a partir das situações
finais conhecidas. Um modelo de classificação será inferido a partir do
perfil dos discentes evadidos ou formados, de acordo com os dados
utilizados para treinamento. Em seguida, os dados dos discentes
ingressantes serão classificados de acordo com o modelo inferido
através dos dados de treinamento. Desta forma é possível, por exemplo,
classificar o risco de evasão dos alunos ingressantes no período atual
de acordo com o modelo obtido com base nos períodos anteriores.
As técnicas de amostragem cross-validation e random sampling foram
escolhidas pois oferecem resultados realistas, uma vez que um mesmo registro
não é utilizado para treinamento e teste. Já a técnica separeted test data foi
escolhida para realização de experimentos ainda mais próximos da realidade,
algoritmos classificadores, serão utilizados os seis mais conceituados dentre os
disponíveis e seus respectivos desempenhos serão avaliados.
Por fim, por meio do widget confusion matrix é possível visualizar e
comparar os quantitativos obtidos a partir da classificação. Adicionando mais
um widget data table depois de confusion matrix será possível visualizar, um
por um, os registros com a respectiva classificação oferecida pelo algoritmo
selecionado, conforme mostra a Figura 4.5. É utilizando este recurso que as
IFES irão obter os subsídios necessários para identificar os discentes com alto
risco de evasão, concretizando assim a aplicabilidade da abordagem proposta.
Figura 4.5 - Visualização individual dos registros classificados
4.8 CONSIDERAÇÕES FINAIS
Neste capítulo a abordagem proposta foi apresentada, organizada em
etapas, conforme representadas novamente na Figura 4.6. Inicialmente foram
definidos os objetivos da tarefa de mineração. Estes objetivos foram pensados
com base no estudo do negócio conduzido durante o capítulo de
fundamentação teórica. Em seguida foram fornecidos subsídios para a escolha
das ferramentas. A compreensão do negócio, a definição dos objetivos e a
escolha das ferramentas são etapas particulares deste trabalho e, por esta
razão, não precisarão ser aplicadas novamente quando da utilização da
abordagem proposta em outras instituições desde que com o mesmo objetivo.
Figura 4.6 - Etapas da abordagem proposta
Em seguida, foi apresentada a etapa referente à compreensão dos
dados, onde foi conduzido um estudo sobre as particularidades da estrutura de
dados da instituição estudada, buscando a identificação dos dados que seriam
selecionados e extraídos para treinamento e teste dos algoritmos. Em seguida
foi mostrado o processo de transformação e preparação dos dados seguido do
processo de importação dos mesmos na ferramenta escolhida. Por fim foi
apresentada a etapa de construção do modelo de mineração, na qual os dados
foram submetidos aos algoritmos especificados. Já no capítulo seguinte será
apresentada a etapa final, referente à análise dos resultados obtidos.
Conforme será apresentado no capítulo seguinte, as experimentações
conduzidas no ambiente proposto para teste e validação mostraram que a
abordagem apresentada tem condições de fornecer índices satisfatórios de
acurácia de classificação, possibilitando que a administração ofereça algum
tipo de acompanhamento para os discentes classificados como um futuro caso
de evasão. Ainda assim, existe o risco de se deixar de fora do
acompanhamento ofertado os discentes que não tenham sido classificados
como um futuro caso de evasão (talvez por possuírem mais indícios que
apontam para a formação do que para a evasão do mesmo). Dada a natureza
das medidas preventivas, seria preferível estender o acompanhamento
proposto aos discentes com algum risco de evasão, do que deixá-los de fora.
Para tanto, uma abordagem diferente pode ser utilizada com base nas
probabilidades de classificação. Ocorre que, um registro é classificado como caso de evasão se, e somente se, a probabilidade de evasão for maior que a
probabilidade de formação. No entanto, caso seja de interesse da instituição, é
Figura 4.7 - Probabilidades de classificação
Fonte: O autor
Conforme mostra a Figura 4.7, a coluna (A) apresenta a classificação
discreta do discente, com base na situação final com maior probabilidade. Por exemplo, se o discente possui 51% de probabilidade de configurar um caso de
evasão, este será, naturalmente, classificado como um caso de evasão. Já as
colunas (B) e (C) apresentam a probabilidade de evasão e formação,
respectivamente, independentemente da classificação final sugerida.
Desta forma é possível, que a administração das IFES estipule regras
para incluir nos programas de acompanhamento todos os discentes com um
determinado risco de evasão. Isto reduziria a acurácia da identificação dos
discentes que irão, de fato, se evadir, no entanto, permitiria uma maior
abrangência das soluções propostas para combate à evasão. Seria possível,
por exemplo, determinar que todos os discentes com risco de evasão maior