COMPREENSÃO DO NEGÓCIO - A predição da evasão escolar dos cursos técnicos de nível médio : um e

O trabalho foi estruturado visando à criação de um modelo preditivo para evasão escolar a partir de uma base de dados específica.

Na Figura 5, podemos observar o processo de apuração dos dados de produção do Sis- tema SENAI via SCOP, orientando-se a partir da realização da matrícula na unidade opera- cional após a inclusão da matrícula e realizada a consolidação e homologação dos dados pelo Departamento Regional. Por fim, os dados são disponibilizados para o Departamento Nacio- nal realizar a publicação dos resultados.

A Unidade Básica da Produção é constituída por um conjunto de conhecimentos teóri- co-práticos que, em determinados momentos, podem estar dispostos metodologicamente e também podem ser aplicados de forma sistemática visando à formação, ao aperfeiçoamento e

à especialização profissional em ocupação no mercado de trabalho. Podem, também, ser orga- nizados a partir de necessidades especificamente diagnosticadas para atender às necessidades imediatas das empresas, tendo como objetivo complementar ou atualizar conhecimentos dos seus empregados.

Figura 5 - Processo de apuração da produção do SENAI

O Sistema SCOP procura aperfeiçoar e tornar mais claro e compatível todo o processo de apropriação do esforço do Sistema SENAI no que tange à produção de seus programas de educação profissional com o objetivo de divulgar as ações do SENAI e também de subsidiar a tomada de decisão.

No entanto, dado o enorme volume e complexidade da informação armazenada, torna- se difícil a análise e a compreensão dos dados e, consequentemente, a obtenção de informação útil à tomada de decisão.

Outro atributo também demandado da educação profissional é o seu caráter permanen- te. Assim sendo, deve estar entre seus principais objetivos a estruturação de itinerários educa- cionais que garantam a permanecia dos jovens em sala de aula, facilitando o acesso deles ao mundo do trabalho e o atendimento aos profissionais que necessitam de uma melhor qualifi- cação para exercerem suas atividades na indústria.

Dessa forma, tornou-se importante captar os motivos pelos quais os alunos se evadem dos cursos técnicos de nível médio do SENAI para se estruturar ações de combate a esse fe- nômeno de forma a assegurar a permanência do aluno no sistema de ensino. Observa-se que a ocorrência desse fenômeno afeta negativamente um dos principais determinantes da competi- tividade da indústria, a produtividade do trabalho (CNI, 2013, p.27).

Para este estudo, será adotado o conceito de evasão praticado pelo SENAI: “É a inter- rupção ou abandono pelo aluno de um curso ou programa em caráter definitivo” (Glossário da Educação Profissional, www.senai.br/glossario).

Para a realização do estudo, foram utilizados recursos disponíveis em termos de talen- tos humanos, tecnologias, dados e informações:

a) base de dados contendo o cadastro das matrículas dos alunos;

b) especialistas no tema em estudo são funcionários do próprio SENAI/DN; c) equipamento com as seguintes características: Intel Core i5-3317U CPU

1.70GHz/1.70GHz, 4 GB de Memória (RAM), 195 Gbytes de Disco Rígido; d) ferramenta SQL Query Analyzer 2008;

e) software de Mineração de Dados WEKA Versão 3-6-10.

As características técnicas apresentadas a seguir são extraídas do Sistema SCOP em sua estrutura capaz de individualizar as informações por aluno:

a) acesso via Web;

b) plataforma de desenvolvimento: ASP, Web Class e Visual Basic 6 (LP); c) Sistema Gerenciador de Banco de Dados (Microsoft SQL Server).

O software utilizado para a mineração dos dados e transformação do conhecimento sobre alunos em informações úteis para a predição da evasão foi o Weka (Waikato Enviro-

ment for Knowledge Analysis), um software gratuito e de código aberto implementado na lin-

guagem Java. Está disponível em http://www.cs.waikato.ac.nz/ml/weka.

A suíte WEKA é formada por um conjunto de implementações de algoritmos de diver- sas técnicas de Mineração de Dados.

Para a realização da importação dos dados para a ferramenta WEKA, é necessário que o arquivo esteja organizado em formato .arff. Nesse arquivo devem estar presentes uma série de informações, dentre elas: domínio do atributo, valores que os atributos podem representar e atributo classe.

O arquivo .arff é dividido em duas partes. A primeira contém uma lista de todos os a- tributos nos quais se devem definir o tipo do atributo e/ou os valores que ele pode representar. Os valores devem estar entre chaves ({}) e separados por vírgulas. A segunda é composta

pelas instâncias presentes nos dados. Os atributos de cada instância devem ser separados por vírgula, e aqueles que não contêm valor, o valor deles deve ser representado pelo caractere '?'.

As informações presentes no arquivo.arff são especificadas utilizando marcações. Por exemplo, o nome do conjunto de dados é especificado através da marcação @relation, @atribute para os atributos e os dados em si são definidos através da marcação @data.

A hipótese explorada no processo de mineração dos dados para este estudo tem como objetivo caracterizar o perfil de alunos propensos a se evadirem dos cursos técnicos de nível médio do SENAI.

O plano de projeto a seguir apresenta as atividades para extração dos dados do SCOP e a migração dos dados para a ferramenta de mineração de dados WEKA, conforme etapas a- presentadas na Figura 6.

Figura 6 - Atividades para extração dos dados do SCOP e migração para o WEKA

Definição do modelo conceitual de dados Definição dos dados para análise Carga dos dados para análise Definição dos dados para carga Carga dos dados para o WEKA Fim Inicio

A seguir é apresentada uma breve descrição das etapas.

Definição do modelo conceitual de dados

Consiste no entendimento de como os dados são coletados, processados e divulgados no SCOP. Consiste, ainda, na elaboração do modelo conceitual de dados.

Produtos:

a) estrutura chave de entrada de dados; b) modelo conceitual de dados.

Definição dos dados para análise

Consiste na elaboração do modelo de dados transacional da estrutura de dados de a- cordo com o escopo levantado na definição do modelo conceitual de dados.

Nesta etapa, ocorrerá a modelagem transacional dos dados oriundos do SCOP. Esses dados estarão integrados, consolidados e validados. É importante que essa estrutura contemple todas as necessidades levantadas no estudo.

Carga dos dados para análise

Consiste no desenvolvimento dos processos de ETL (Extração, Transformação e Car- ga) para a estrutura de dados para análise. Estes processos deverão considerar a possibilidade da carga ser inicial, incremental ou substitutiva.

O script deverá realizar extrações para a carga inicial dos dados incrementais e substi- tutivos de forma parametrizada, ou seja, flexível para que seja possível selecionar uma ou mais modalidades de extração. Consiste, ainda, na adequação dos dados obtidos pelas rotinas de extração para o ambiente da estrutura de dados para análise. O processo de ETL será implementado utilizando-se a ferramenta SQL Query Analyzer 2008.

Produtos:

a) script de extração dos dados;

b) documentação das situações de erros e exceções encontradas.

Definição dos dados para carga

Consiste na definição dos atributos que irão compor o modelo final dos dados para carga a partir do escopo do modelo de dados. Nesta atividade, são identificados para cada entidade-chave os atributos com maior relevância para o estudo. Consiste, ainda, na adequa- ção dos dados obtidos pelas rotinas de extração para o ambiente de análise dos dados. As fun- ções de transformação deverão apontar situações de erros, duplicidades e exceções conforme especificação realizada durante o levantamento, indicando melhorias e correções. O processo será implementado utilizando a ferramenta Microsoft Office Excel.

O produto é o modelo de dados para carga.

Carga dos dados para o WEKA

Consiste na preparação do arquivo para o formato. arff e na carga dos dados do ambiente de análise de dados para a ferramenta WEKA.

No documento A predição da evasão escolar dos cursos técnicos de nível médio : um estudo de caso no SENAI (páginas 49-54)