O trabalho foi estruturado visando à criação de um modelo preditivo para evasão esco- lar a partir de uma base de dados específica.
Na Figura 5, podemos observar o processo de apuração dos dados de produção do Sis- tema SENAI via SCOP, orientando-se a partir da realização da matrícula na unidade opera- cional após a inclusão da matrícula e realizada a consolidação e homologação dos dados pelo Departamento Regional. Por fim, os dados são disponibilizados para o Departamento Nacio- nal realizar a publicação dos resultados.
A Unidade Básica da Produção é constituída por um conjunto de conhecimentos teóri- co-práticos que, em determinados momentos, podem estar dispostos metodologicamente e também podem ser aplicados de forma sistemática visando à formação, ao aperfeiçoamento e
à especialização profissional em ocupação no mercado de trabalho. Podem, também, ser orga- nizados a partir de necessidades especificamente diagnosticadas para atender às necessidades imediatas das empresas, tendo como objetivo complementar ou atualizar conhecimentos dos seus empregados.
Figura 5 - Processo de apuração da produção do SENAI
O Sistema SCOP procura aperfeiçoar e tornar mais claro e compatível todo o processo de apropriação do esforço do Sistema SENAI no que tange à produção de seus programas de educação profissional com o objetivo de divulgar as ações do SENAI e também de subsidiar a tomada de decisão.
No entanto, dado o enorme volume e complexidade da informação armazenada, torna- se difícil a análise e a compreensão dos dados e, consequentemente, a obtenção de informação útil à tomada de decisão.
Outro atributo também demandado da educação profissional é o seu caráter permanen- te. Assim sendo, deve estar entre seus principais objetivos a estruturação de itinerários educa- cionais que garantam a permanecia dos jovens em sala de aula, facilitando o acesso deles ao mundo do trabalho e o atendimento aos profissionais que necessitam de uma melhor qualifi- cação para exercerem suas atividades na indústria.
Dessa forma, tornou-se importante captar os motivos pelos quais os alunos se evadem dos cursos técnicos de nível médio do SENAI para se estruturar ações de combate a esse fe- nômeno de forma a assegurar a permanência do aluno no sistema de ensino. Observa-se que a ocorrência desse fenômeno afeta negativamente um dos principais determinantes da competi- tividade da indústria, a produtividade do trabalho (CNI, 2013, p.27).
Para este estudo, será adotado o conceito de evasão praticado pelo SENAI: “É a inter- rupção ou abandono pelo aluno de um curso ou programa em caráter definitivo” (Glossário da Educação Profissional, www.senai.br/glossario).
Para a realização do estudo, foram utilizados recursos disponíveis em termos de talen- tos humanos, tecnologias, dados e informações:
a) base de dados contendo o cadastro das matrículas dos alunos;
b) especialistas no tema em estudo são funcionários do próprio SENAI/DN; c) equipamento com as seguintes características: Intel Core i5-3317U CPU
1.70GHz/1.70GHz, 4 GB de Memória (RAM), 195 Gbytes de Disco Rígido; d) ferramenta SQL Query Analyzer 2008;
e) software de Mineração de Dados WEKA Versão 3-6-10.
As características técnicas apresentadas a seguir são extraídas do Sistema SCOP em sua estrutura capaz de individualizar as informações por aluno:
a) acesso via Web;
b) plataforma de desenvolvimento: ASP, Web Class e Visual Basic 6 (LP); c) Sistema Gerenciador de Banco de Dados (Microsoft SQL Server).
O software utilizado para a mineração dos dados e transformação do conhecimento sobre alunos em informações úteis para a predição da evasão foi o Weka (Waikato Enviro-
ment for Knowledge Analysis), um software gratuito e de código aberto implementado na lin-
guagem Java. Está disponível em http://www.cs.waikato.ac.nz/ml/weka.
A suíte WEKA é formada por um conjunto de implementações de algoritmos de diver- sas técnicas de Mineração de Dados.
Para a realização da importação dos dados para a ferramenta WEKA, é necessário que o arquivo esteja organizado em formato .arff. Nesse arquivo devem estar presentes uma série de informações, dentre elas: domínio do atributo, valores que os atributos podem representar e atributo classe.
O arquivo .arff é dividido em duas partes. A primeira contém uma lista de todos os a- tributos nos quais se devem definir o tipo do atributo e/ou os valores que ele pode representar. Os valores devem estar entre chaves ({}) e separados por vírgulas. A segunda é composta
pelas instâncias presentes nos dados. Os atributos de cada instância devem ser separados por vírgula, e aqueles que não contêm valor, o valor deles deve ser representado pelo caractere '?'.
As informações presentes no arquivo.arff são especificadas utilizando marcações. Por exemplo, o nome do conjunto de dados é especificado através da marcação @relation, @atribute para os atributos e os dados em si são definidos através da marcação @data.
A hipótese explorada no processo de mineração dos dados para este estudo tem como objetivo caracterizar o perfil de alunos propensos a se evadirem dos cursos técnicos de nível médio do SENAI.
O plano de projeto a seguir apresenta as atividades para extração dos dados do SCOP e a migração dos dados para a ferramenta de mineração de dados WEKA, conforme etapas a- presentadas na Figura 6.
Figura 6 - Atividades para extração dos dados do SCOP e migração para o WEKA
Definição do modelo conceitual de dados Definição dos dados para análise Carga dos dados para análise Definição dos dados para carga Carga dos dados para o WEKA Fim Inicio
A seguir é apresentada uma breve descrição das etapas.
Definição do modelo conceitual de dados
Consiste no entendimento de como os dados são coletados, processados e divulgados no SCOP. Consiste, ainda, na elaboração do modelo conceitual de dados.
Produtos:
a) estrutura chave de entrada de dados; b) modelo conceitual de dados.
Definição dos dados para análise
Consiste na elaboração do modelo de dados transacional da estrutura de dados de a- cordo com o escopo levantado na definição do modelo conceitual de dados.
Nesta etapa, ocorrerá a modelagem transacional dos dados oriundos do SCOP. Esses dados estarão integrados, consolidados e validados. É importante que essa estrutura contemple todas as necessidades levantadas no estudo.
Carga dos dados para análise
Consiste no desenvolvimento dos processos de ETL (Extração, Transformação e Car- ga) para a estrutura de dados para análise. Estes processos deverão considerar a possibilidade da carga ser inicial, incremental ou substitutiva.
O script deverá realizar extrações para a carga inicial dos dados incrementais e substi- tutivos de forma parametrizada, ou seja, flexível para que seja possível selecionar uma ou mais modalidades de extração. Consiste, ainda, na adequação dos dados obtidos pelas rotinas de extração para o ambiente da estrutura de dados para análise. O processo de ETL será im- plementado utilizando-se a ferramenta SQL Query Analyzer 2008.
Produtos:
a) script de extração dos dados;
b) documentação das situações de erros e exceções encontradas.
Definição dos dados para carga
Consiste na definição dos atributos que irão compor o modelo final dos dados para carga a partir do escopo do modelo de dados. Nesta atividade, são identificados para cada entidade-chave os atributos com maior relevância para o estudo. Consiste, ainda, na adequa- ção dos dados obtidos pelas rotinas de extração para o ambiente de análise dos dados. As fun- ções de transformação deverão apontar situações de erros, duplicidades e exceções conforme especificação realizada durante o levantamento, indicando melhorias e correções. O processo será implementado utilizando a ferramenta Microsoft Office Excel.
O produto é o modelo de dados para carga.
Carga dos dados para o WEKA
Consiste na preparação do arquivo para o formato. arff e na carga dos dados do ambi- ente de análise de dados para a ferramenta WEKA.