• Nenhum resultado encontrado

O processo de preparação dos dados para a mineração, também chamado de pré- pro- cessamento na maioria dos projetos de mineração, compreende até 80% de todo o processo (MANILLA, 1994). Esta fase do experimento foi orientada pelo modelo desenvolvido por Han (2006), demonstrado na Figura 8.

Figura 8 - Atividades do pré-processamento

Fonte: Han (2006)

Para a definição dos dados a fim de realizar a Mineração de Dados, utilizou-se a base de dados extraída do SCOP contendo 361.578 instâncias com informações sobre realização e movimentação de matrículas. Da base de dados, selecionou-se apenas a modalidade de Edu- cação Profissional Técnica de Nível Médio.

A escolha dos atributos que irão compor o conjunto de dados para realização da mine- ração de dados foi realizada a partir da análise da base de dados e da literatura explorada. Para cada entidade chave do SCOP, foi selecionado um conjunto de atributos e aplicados três crité- rios com o objetivo de selecionar os atributos que se apresentam mais relevantes para este estudo, quais sejam: (i) maior ocorrência de possíveis causas que resultam em evasão escolar apontadas pelos estudos utilizados na revisão de literatura e evidenciadas no Quadro 2 (Estu- do sobre as causas de evasão escolar); (ii) relevância do atributo para o negócio (Educação Profissional) do SENAI e (iii) qualidade de dados para cada atributo sendo analisadas sua completude e necessidade de correção.

Ao final da seleção, na Figura 9, são representadas as dimensões para análise do perfil que identifica as dimensões causadoras de evasão educacional e distribui as variáveis confor- me característica de cada dimensão.

Para análise do perfil, foi realizada a mineração sobre as instâncias dos alunos conten- do as variáveis apresentadas nas dimensões: a) econômica (tipo de responsável financeiro,

forma de financiamento do curso, identificador do público do Pronatec, condição do aluno e situação ocupacional); b) social (idade, raça, estado civil, naturalidade, nacionalidade, sexo e motivo da falta de CPF); c) de localização (código IBGE do endereço do aluno, código IBGE do endereço da unidade de ensino, código IBGE do endereço do local de trabalho, estado e região onde a unidade está localizada; e d) educacional (grau de instrução, matrícula concomi- tante com o SESI, origem escolar, carga horária do curso, descrição do curso, descrição da modalidade, área de conhecimento e tipo de entrada).

Figura 9 - Dimensões da análise de perfil · Tipo de Resp. Financeiro; · Financiamento; · Pronatec; · Condição do aluno; · Situação ocupacional. · Idade; · Raça; · Estado Civil; · Naturalidade; · Nacionalidade; · Motivo da falta de CPF; · Sexo. · Grau de Instrução; · Matrícula Articulada; · Origem Escolar; · Carga horária do curso; · Curso;

· Modalidade;

· Área de conhecimento; · Tipo de Entrada. · Cod. IBGE da unidade

de ensino;

· Cod. IBGE do local de

trabalho;

· Cod. IBGE do aluno; · Região; · UF/DR. Em Andamento

Evasão

Concluinte Va riá veis Ec on ôm icas Variá veis Socia is Variá veis de Loca lizaçã o Variá ve is Ed uc ac ion ais

Para se chegar à visão final dos dados, foi necessário explorá-los, buscando, além de mais conhecimento sobre eles, evitar informações que possam comprometer sua qualidade, tais como valores em branco ou nulo, valores viciados, variáveis duplicadas, entre outras. À medida que problemas foram sendo encontrados, o entendimento foi obtido. Dessa forma, ocorreu a preparação dos dados para que os algoritmos de mineração pudessem ser aplicados.

Han (2006) descreve várias técnicas estatísticas de análise de dispersão (Quartiles e Variância) e de medida central (média, mediana, moda e faixa de valores) combinadas com gráficos (Histogramas, Barra, BoxPlot e Dispersão) que são usadas para a exploração dos da- dos.

Limpeza dos Dados

Inicialmente foram excluídos os atributos código da Unidade Operacional, Nome da Unidade Operacional e Unidade Federativa do Responsável Financeiro, uma vez que, para referenciar a localização da unidade e do responsável financeiro, pretendia-se utilizar os atri- butos Código “IBGE UO” e “IBGE_Estabelecimento”. Contudo, mesmo partindo os dados em faixas, a partir da frequência média dos valores, os códigos de municípios elaborados pelo IBGE apresentaram um alto volume de valores contínuos, onerando o processamento. Por fim, optou-se pela remoção deste atributo, uma vez que comprometia a qualidade da amostra.

Com a intenção de preservar a identidade do aluno e por entender que as validações já foram realizadas durante a extração dos dados, de forma a garantir que cada linha da tabela corresponda à situação do aluno na base de dados, foram excluídos os atributos “CPF”, “No- me do Aluno” e “Código do aluno”.

Ao analisar os atributos “Profissão do Aluno”, “Cargo do Aluno” e “Função do Alu- no”, foi identificado que havia prevalência de valores nulos, representando, respectivamente, 92% (331.584), 99% (360.442) e 99% (361.389) de um total de 361.578 instâncias. A ausên- cia de valores também foi identificada para os atributos “Tipo de Responsável Financeiro” e “Motivo da Falta de CPF”. Esse fato ocorre porque, no momento da inserção dos dados no SCOP, a coleta desses atributos não é obrigatória. Os dados identificados com ausência de valores seriam preenchidos com os valores medianos respectivos, através do preenchimento de informações ausentes por medidas estatísticas. No entanto, em razão do alto grau de ausên- cia de dados, os atributos foram descartados para não gerar dados tendenciosos ou inconsis- tentes.

Foram excluídas as linhas do arquivo para as situações de matrículas iguais a “Penden- te de estágio” (5.917 linhas), “Eliminada” (20.335 linhas), “Trancada” (10.236 linhas) e “Transferência” (755 linhas), restando um total de 324.335 instâncias no arquivo.

As datas de entrada, saída e previsão de saída da matrícula foram excluídas, pois, para este estudo, será analisado o período de 1º de janeiro de 2012 a 5 de dezembro de 2014.

Por já estarem identificados por meio de descrições, os atributos “Código do curso”, “Código da área”, “Código da modalidade” e “Código da situação da matrícula” foram exclu- ídos da tabela. Também foram excluídos os atributos “Código da matrícula” e “CNPJ do Es- tabelecimento”.

Integração dos Dados

Para avaliar a relevância dos atributos, foi utilizado o algoritmo “CfsSubsetEval”, que

avalia o valor de um subconjunto de atributos ao considerar a capacidade preditiva individual de cada recurso, juntamente com o grau de redundância entre eles (HALL, 2011). São preferi- dos subconjuntos de características que são altamente correlacionadas com a classe ao ter bai- xa inter-correlação.

O método selecionado foi “BestFirst”, que procura o espaço de subconjuntos de atri-

butos por subidas e com a utilização de retrocesso. Pode começar com um conjunto vazio de atributos e procurar para frente ou começar com todo o conjunto de atributos e procurar para trás. Também pode começar a qualquer momento e procurar em ambos os sentidos (conside- rando todas as possíveis adições de atributos individuais e deleções em um determinado pon- to).

Os resultados obtidos identificaram como sendo os atributos mais relevantes para este experimento:

a) Região (região Metropolitana onde o curso técnico é ofertado); b) Carga Horária do Curso (carga horária do curso técnico); c) Idade (idade do aluno);

d) Financiamento (Gratuidade Regimental – recursos integrais do SENAI – clien- tela de baixa renda, Bolsa de Estudos – gratuidade não regimental – recursos integrais ou parciais do SENAI – clientela de qualquer renda, Convênio – gra- tuidade bancada, integral ou parcialmente, com recursos de terceiros ou Não Gratuita).

Para avaliar os atributos, também foi utilizada análise univariada e bivariada. Para is- so, foi necessária uma análise aprofundada dos dados observando redundâncias, dependências entre as variáveis e valores conflitantes (categorias diferentes para os mesmos valores, desba- lanceamento, chaves divergentes, regras diferentes para os mesmos dados, entre outros). O Gráfico 1 e as figuras 10 e 11 ilustram a abrangência dos conceitos explicitados.

O Gráfico 1 apresenta a avaliação e a estatística dos dados para o atributo “Modalida- de”. Os dados estão distribuídos como “A distância”, “Presencial fase escolar” e “Presencial fase estágio”. As cores representam a frequência com que os valores das classes (Evadida, Concluída e Em andamento) do atributo “Situações de Matrículas” ocorreu no conjunto de dados.

Do total de 324.335 instâncias, 319.526 (99%) representa o valor “Presencial fase es- colar”. Para evitar sobreposição dos valores, o atributo foi excluído do experimento.

A distância Presencial fase escolar Presencial fase estágio Gráfico 1 - Análise do atributo “Modalidade” contido na visão Brasil

A Figura 10 ilustra o gráfico de dispersão adaptado do WEKA. Nela, podem-se visua- lizar os atributos “Origem Escolar” e “Financiamento” e as classes das instâncias utilizadas. No gráfico, a abscissa representa o “Financiamento”; a ordenada, a “Origem Escolar”. As cores representam o grupo a que determinada classe pertence. Pode-se perceber que a maioria das instâncias que pertencem à classe “Evadida” foram agrupadas na Origem Escolar “Pública Municipal” e a ocorrência está correlacionada ao Financiamento “Pronatec”.

Figura 10 - Análise da relação dos atributos “Origem Escolar” e “Financiamento” contido na visão Brasil Evadida Concluída Em andamento

Os dados foram segmentados por Região, Estado, Unidade de Ensino, Modalidade de Ensino, Situação da Matrícula e perfil do aluno. Para Situação da Matrícula, serão considera- das apenas as variáveis “Matriculado”, “Evadido” e “Concluinte”.

Transformação dos Dados

Para o atributo “Data de Nascimento do Aluno”, foi aplicada fórmula para calcular a idade do aluno considerando o período entre a data de nascimento dele e a data limite de 5 de dezembro 2014. Já a carga horária do curso foi composta pela soma das cargas horárias das fases escolar e estágio.

O atributo “Nacionalidade”, por ser um campo-texto informado manualmente pelo u- suário no sistema SCOP, foi identificado pela mesma palavra. Para aumentar a acurácia dos classificadores, a nomenclatura foi normalizada. Posteriormente o atributo foi retirado da a- mostra, pois 99% dos valores correspondiam às respostas “Não_Informado” e “Brasileira”.

Os dados presentes no atributo “Nome da modalidade” foram transformados, confor- me configuração a seguir: a) código da modalidade igual a 31, o nome da modalidade passa a ser “Presencial – Fase Escolar”; b) código igual a 32, o nome da modalidade passa a ser “Pre- sencial – Fase Estágio”; c) código igual a 33, o nome da modalidade passa a ser “A distância”. Também foi incluído no arquivo o atributo “Região”.

Redução dos Dados

Foi necessário padronizar os valores dos atributos, idade e carga horária do curso, isto porque eles continham uma sequência de valores muito abrangente, o que dificultava tanto o processamento quanto o entendimento dos resultados. Para resolver este problema, foi adota- do o método de discretização. Método por meio do qual os valores contínuos são ordenados, obtêm-se o somatório deles e então este valor é dividido em intervalos.

Com o fito de reduzir o espaço de busca por descrições, a base de dados foi dividida em três visões: (i) Brasil (base completa), (ii) Região (base dividida com os dados da região Sudeste) e (iii) Estado (base dividida com os dados do estado de Minas Gerais). O estado de Minas Gerais, localizado na região Sudeste, foi escolhido por nele haver um número elevado de matrículas em comparação com os demais estados.

Após a divisão da base, a análise das variáveis também foi realizada sob a visão restri- ta dos dados do estado de Minas Gerais. A Figura 11 ilustra os gráficos extraídos do WEKA e

apresenta a visão de todos os atributos utilizados no experimento visualizados a partir da tela de pré-processamento.

Figura 11 - Análise dos atributos contidos na visão do estado de Minas Gerais

No tocante aos gráficos, podem-se analisar os seguintes dados:

a) no gráfico por Área, a maior barra corresponde à área tecnológica “Metalme- cânica”, com um total de 21.451 instâncias;

b) no gráfico por Modalidade, de um total de 60.678 instâncias, 60.675 corres- pondem à modalidade “Presencial fase escolar”. Esse resultado já era esperado, pois, na visão Brasil, já foi evidenciada a sobreposição e o atributo foi excluí- do;

c) o gráfico por Idade caracteriza que todos os alunos matriculados nos cursos técnicos de nível médio do estado de Minas Gerais são alunos com idade maior que 21 anos;

d) no gráfico por Sexo, a maior barra corresponde ao sexo “Masculino”, com um total de 42.844 instâncias. A menor barra corresponde ao sexo “Feminino”, com um total de 17.834 registros. Um ponto interessante, levado em considera- ção, é que 1/3 (um terço) das instâncias correspondem a mulheres. Esses dados

referem-se somente ao estado de Minas Gerais, mas este resultado também se repete na visão Brasil e demonstra a crescente procura de mulheres por cursos técnicos;

e) no gráfico por Raça, a maior barra corresponde à cor da pele “Parda” que é se- guida pela barra da cor da pele “Branca”;

f) no gráfico por Estado Civil, a maior barra corresponde à situação civil de “Sol- teiro”, com um total de 51.183 instâncias, o que corresponde a 84,35% de to- dos os registros (60.678). Observe que a predominância está distribuída quase por igual entre as classes (evadidos, concluintes e em andamento), o que indica que, a cada dois alunos que ingressam no curso técnico, um conclui o curso e um se evade do curso;

g) no gráfico por Grau de Instrução, a maior barra corresponde ao grau de instru- ção “Médio Incompleto”, com um total de 31.161 instâncias, o que correspon- de a 51,35% de todos os registros;

h) no gráfico por Situação Ocupacional, a maior barra corresponde a “Desempre- gados”, com um total de 34.829 instâncias, o que corresponde a 57,39% de to- dos os registros;

i) no gráfico por Origem Escolar, a maior barra corresponde à origem escolar “Pública Estadual”, com um total de 48.124 instâncias, o que corresponde a 79,31% de todos os registros.

Dessa forma, para referenciar a ocorrência de evasão escolar pela localização, foi utili- zada a hierarquia de conceitos para dados categóricos, o atributo com o maior número de va- lores distintos por atributo é colocado no nível mais baixo da hierarquia:

a) Estado (Minas Gerais) – 12.951 instâncias contendo valores distintos da situa- ção de matrícula (evasão);

b) Região (Sudeste) – 32.521 instâncias contendo valores distintos da situação de matrícula (evasão);

c) Brasil – 61.203 instâncias contendo valores distintos da situação de matrícula (evasão).

Para a realização desta pesquisa, foi utilizada a base de dados considerando apenas o recorte dos exercícios dos anos 2012, 2013 e 2014 (extraídos da base de dados corrente do SCOP, em 5.12.2014) que apresentam a carga horária necessária para a realização do curso técnico de nível médio conforme resolução CNE/CEB 6/2012. No Diário Oficial da União, Brasília, 21 de setembro de 2012, Seção 1, p. 22, temos a definição das Diretrizes Curricula-

res Nacionais para a Educação Profissional Técnica de Nível Médio indicada no Catálogo Nacional de Cursos Técnicos.

Desta forma, a base de dados será composta por todas as movimentações de situações de matrículas iguais a “Matriculado”, “Concluinte” e “Evadido” no período entre 1º de janeiro de 2012 a 5 de dezembro de 2014.

Documentos relacionados