CONSTRUÇÃO DO MODELO PARA MINERAÇÃO

4. ABORDAGEM PROPOSTA

4.7 CONSTRUÇÃO DO MODELO PARA MINERAÇÃO

Conforme já mencionado durante a apresentação da ferramenta para

Mineração de Dados escolhida, no Orange o modelo de Mineração de Dados é

representado por meio de um fluxograma contendo toda a estrutura do

processo de mineração com todas as etapas de configuração, visualização e

operação aos quais são submetidos os dados, incluindo, mas não limitado à

aplicação de algoritmos específicos, visualização dos dados em determinado

estágio do fluxo, apresentação de resultados e estatísticas sobre modificadores

aplicados aos dados, segregação da amostragem para treinamento e teste,

entre diversas outras etapas inerentes ao processo de mineração.

Desta forma, após diversas experimentações com configurações

diferentes, foi estabelecido um modelo para o fluxograma de Mineração de

Dados com base nos objetivos propostos, conforme mostra a Figura 4.4. O

modelo estabelecido realiza a importação dos dados através do widget file. Em

widget select columns e só então utiliza-se o widget data table para visualizar e validar os dados que serão transmitidos para o widget test & score.

Figura 4.4 - Fluxograma do modelo de mineração

Fonte: O Autor (2016)

Por meio do widget test & score é possível submeter os dados aos

algoritmos classificadores já apresentados durante a seção de fundamentação

teórica (Naive Bayes, Classification Tree, SVM, K Nearest Neighbors, Logistic

Regression e Random Forest Classification) utilizando técnicas diferentes de amostragem. Esta etapa é essencial, pois é nela que os dados serão divididos,

sendo um grupo enviado para treinamento do algoritmo classificador, e outro

grupo reservado para teste da predição oferecida pelo algoritmo em questão.

Para tanto, foram usadas as seguintes técnicas para amostragem dos dados:

 Cross-validation - Nesta técnica um único conjunto de dados é dividido

em um determinado número de subconjuntos. Cada subconjunto é

reservado por vez e então utilizado para testar o desempenho do

algoritmo, enquanto os demais fornecem subsídios para construção do

modelo de classificação do algoritmo, isto é, são utilizados para o

treinamento do algoritmo (ORANGE, 2016). Por exemplo, são

importados os dados dos discentes ingressos num determinado período.

Os dados são então divididos em cinco subconjuntos. O primeiro

subconjunto é reservado. O algoritmo irá inferir o modelo de

classificação a partir dos subconjuntos restantes e então classificar o

primeiro subconjunto. O processo será repetido até que todos os

subconjuntos sejam classificados. Nesta abordagem o algoritmo nunca

irá classificar um registro com base no treinamento do mesmo registro.

 Random sampling - Nesta técnica um único conjunto de dados é dividido

em dados para treinamento e dados para teste de forma aleatória, de

acordo com uma proporção determinada. O processo é então repetido

por um número determinado de vezes (ORANGE, 2016). Por exemplo,

são importados os dados de todos os discentes ingressos em um

determinado período. É estabelecida uma proporção para teste e

treinamento, por exemplo, 30% dos registros para treinamento e 70%

para teste. Os dados são então divididos nas proporções estabelecidas

fornecer o modelo a partir do qual serão classificados os registros no

conjunto de teste. Todo o processo é então repetido por um determinado

número de vezes, de acordo com as configurações. Nesta abordagem,

assim como ocorre na anterior, o algoritmo nunca irá classificar um

registro com base no treinamento do mesmo registro.

 Separeted test data - Nesta técnica, um segundo conjunto de dados

deve ser importado e este será reservado exclusivamente para

classificação, enquanto apenas o primeiro fornecerá os subsídios

necessários para treinamento dos algoritmos (ORANGE, 2016). É a

técnica que será utilizada na prática pelas IFES quando da aplicação

efetiva da abordagem proposta, pois o objetivo será prever as situações

finais desconhecidas com base no treinamento a partir das situações

finais conhecidas. Um modelo de classificação será inferido a partir do

perfil dos discentes evadidos ou formados, de acordo com os dados

utilizados para treinamento. Em seguida, os dados dos discentes

ingressantes serão classificados de acordo com o modelo inferido

através dos dados de treinamento. Desta forma é possível, por exemplo,

classificar o risco de evasão dos alunos ingressantes no período atual

de acordo com o modelo obtido com base nos períodos anteriores.

As técnicas de amostragem cross-validation e random sampling foram

escolhidas pois oferecem resultados realistas, uma vez que um mesmo registro

não é utilizado para treinamento e teste. Já a técnica separeted test data foi

escolhida para realização de experimentos ainda mais próximos da realidade,

algoritmos classificadores, serão utilizados os seis mais conceituados dentre os

disponíveis e seus respectivos desempenhos serão avaliados.

Por fim, por meio do widget confusion matrix é possível visualizar e

comparar os quantitativos obtidos a partir da classificação. Adicionando mais

um widget data table depois de confusion matrix será possível visualizar, um

por um, os registros com a respectiva classificação oferecida pelo algoritmo

selecionado, conforme mostra a Figura 4.5. É utilizando este recurso que as

IFES irão obter os subsídios necessários para identificar os discentes com alto

risco de evasão, concretizando assim a aplicabilidade da abordagem proposta.

Figura 4.5 - Visualização individual dos registros classificados

4.8 CONSIDERAÇÕES FINAIS

Neste capítulo a abordagem proposta foi apresentada, organizada em

etapas, conforme representadas novamente na Figura 4.6. Inicialmente foram

definidos os objetivos da tarefa de mineração. Estes objetivos foram pensados

com base no estudo do negócio conduzido durante o capítulo de

fundamentação teórica. Em seguida foram fornecidos subsídios para a escolha

das ferramentas. A compreensão do negócio, a definição dos objetivos e a

escolha das ferramentas são etapas particulares deste trabalho e, por esta

razão, não precisarão ser aplicadas novamente quando da utilização da

abordagem proposta em outras instituições desde que com o mesmo objetivo.

Figura 4.6 - Etapas da abordagem proposta

Em seguida, foi apresentada a etapa referente à compreensão dos

dados, onde foi conduzido um estudo sobre as particularidades da estrutura de

dados da instituição estudada, buscando a identificação dos dados que seriam

selecionados e extraídos para treinamento e teste dos algoritmos. Em seguida

foi mostrado o processo de transformação e preparação dos dados seguido do

processo de importação dos mesmos na ferramenta escolhida. Por fim foi

apresentada a etapa de construção do modelo de mineração, na qual os dados

foram submetidos aos algoritmos especificados. Já no capítulo seguinte será

apresentada a etapa final, referente à análise dos resultados obtidos.

Conforme será apresentado no capítulo seguinte, as experimentações

conduzidas no ambiente proposto para teste e validação mostraram que a

abordagem apresentada tem condições de fornecer índices satisfatórios de

acurácia de classificação, possibilitando que a administração ofereça algum

tipo de acompanhamento para os discentes classificados como um futuro caso

de evasão. Ainda assim, existe o risco de se deixar de fora do

acompanhamento ofertado os discentes que não tenham sido classificados

como um futuro caso de evasão (talvez por possuírem mais indícios que

apontam para a formação do que para a evasão do mesmo). Dada a natureza

das medidas preventivas, seria preferível estender o acompanhamento

proposto aos discentes com algum risco de evasão, do que deixá-los de fora.

Para tanto, uma abordagem diferente pode ser utilizada com base nas

probabilidades de classificação. Ocorre que, um registro é classificado como caso de evasão se, e somente se, a probabilidade de evasão for maior que a

probabilidade de formação. No entanto, caso seja de interesse da instituição, é

Figura 4.7 - Probabilidades de classificação

Fonte: O autor

Conforme mostra a Figura 4.7, a coluna (A) apresenta a classificação

discreta do discente, com base na situação final com maior probabilidade. Por exemplo, se o discente possui 51% de probabilidade de configurar um caso de

evasão, este será, naturalmente, classificado como um caso de evasão. Já as

colunas (B) e (C) apresentam a probabilidade de evasão e formação,

respectivamente, independentemente da classificação final sugerida.

Desta forma é possível, que a administração das IFES estipule regras

para incluir nos programas de acompanhamento todos os discentes com um

determinado risco de evasão. Isto reduziria a acurácia da identificação dos

discentes que irão, de fato, se evadir, no entanto, permitiria uma maior

abrangência das soluções propostas para combate à evasão. Seria possível,

por exemplo, determinar que todos os discentes com risco de evasão maior

No documento Mineração de dados aplicada à classificação do risco de evasão de discentes ingressantes em instituições federais de ensino superior (páginas 97-105)