PREPARAÇÃO E TRANSFORMAÇÃO DOS DADOS

4. ABORDAGEM PROPOSTA

4.5 PREPARAÇÃO E TRANSFORMAÇÃO DOS DADOS

Uma vez compreendidos os dados e extraídos os atributos que serão

submetidos aos algoritmos de Mineração de Dados, a próxima etapa será a

transformação destes atributos. Esta etapa é essencial em qualquer atividade

de MD e compreende a fase de extração, transformação e carga, ou ETL

(Extract, Transform and Load) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH,

1996). Esta etapa é quase sempre indispensável, uma vez que, não importa

quão organizados os dados estejam, sempre será necessária alguma

adaptação para a submissão dos mesmos aos algoritmos.

Para a proposta desta pesquisa os dados extraídos serão transformados

e submetidos diretamente à atividade de Mineração de Dados. Não haverá

construção de Data Warehouse13, pois o processo não é necessário para a

tarefa de classificação proposta na pesquisa e sua utilização poderia tornar

demasiadamente onerosa a reprodução da abordagem proposta nas demais

IFES. Por esta razão, a transformação dos dados deve ocorrer no momento de

extração dos mesmos. Esta abordagem irá tornar o processo de ETL ainda

mais simples e acessível, sendo possível sua reprodução quantas vezes forem

necessárias para obtenção de todos os dados desejados para treinamento e

teste diretamente do banco e organizados por semestre letivo.

Os dados serão então exportados para arquivos individuais separados

pelo período letivo de ingresso do discente e em seguida importados para o

ambiente do Orange, no qual ajustes finais poderão ser realizados in loco,

graças às facilidades oferecidas pela ferramenta adotada. Esta simplificação do

processo é um dos diferenciais da abordagem proposta e será apresentado

nesta seção e nas seguintes, no decorrer do desenvolvimento da mesma.

Definida a estratégia de extração, é preciso entrar em detalhes acerca

da transformação necessária em alguns atributos. É importante ressaltar que

existem várias maneiras para realizar estas modificações, sendo possível

inclusive utilizar os instrumentos fornecidos pela própria linguagem SQL14. Este

processo também envolve a etapa de limpeza dos dados, descrita por muitas

metodologias. Para o conjunto de atributos selecionados as seguintes tarefas

de transformação, limpeza e adaptação foram necessárias:

 A001 - Não foram necessárias adaptações para este atributo, no entanto, é interessante que o atributo seja exportado preferencialmente

com o tipo explícito string, isto é, no formato textual. A razão da

utilização do formato de texto e não do formato numérico é para garantir

Structured Query Language, ou em português, Linguagem de Consulta Estruturada. Utilizada na extração dos dados armazenados no banco.

a integridade do dado. Ocorre que, durante a etapa de importação os

dados passarão por muitos aplicativos auxiliares e alguns podem,

equivocadamente, remover os dígitos iniciais dos CPF começados com

zero, o que ocasionaria perda da informação coletada.

 A003 - Para obtenção deste atributo foi necessário realizar o cálculo do valor da idade no momento do ingresso, uma vez que este dado não é

armazenado diretamente no BD devido à sua especificidade. No

ambiente SIGA-UFPE o processo se deu por meio da subtração do ano

de ingresso do discente da data de nascimento do mesmo.

 A004 - Para este atributo foram necessárias algumas adaptações, uma vez que, na base de dados do SIGA-UFPE, a exemplo do que ocorre em

outras instituições, existem diversos valores possíveis para o estado civil

do discente, de acordo com a legislação prevista. Sendo assim, optou-se

pela junção de todos os estados civis previstos na estrutura de dados

em três principais grupos de acordo com a relevância para os objetivos da pesquisa. Os grupos foram: ‘solteiro’, ‘casado’ e ‘outros’.

 A005 - Para este atributo foi necessário introduzir uma padronização para os valores possíveis, especialmente para os casos nos quais a

cor/raça do discente não é informada no momento do cadastro, uma vez

que, quando o dado não era informado, os valores eram simplesmente

deixados em branco no banco de dados do SIGA-UFPE. A informação

foi substituída para explicitar os casos onde a mesma não é declarada

 A010 - Assim como no atributo anterior, para este atributo também, foi necessário introduzir uma padronização dos dados, uma vez que no BD

do SIGA-UFPE a indicação do tipo da escola de origem do discente

possui vários códigos e está relacionada com o antigo sistema de cotas

adotado pela instituição. Como os sistemas de cotas sofreram diversas

alterações ao longo do tempo, o mesmo não foi selecionado como

atributo para a abordagem proposta. Sendo assim, este atributo sofreu

uma padronização, traduzindo os diferentes valores possíveis para este

dado de forma a revelar apenas o tipo de escola de origem do discente,

seja ela pública ou privada. Esta adaptação foi uma maneira encontrada

de aproveitar as informações coletadas pelos sistemas de cotas, uma

vez que a identificação do tipo específico de cota utilizada pelo discente

não seria possível, devido às mudanças ocorridas no sistema.

 A014 - Para tornar possível a obtenção deste atributo foram necessárias algumas transformações, uma vez que o mesmo não é registrado no BD

do SIGA-UFPE de forma explícita. Devido a particularidades da

modelagem do BD o tipo do curso é armazenado por meio de um

indicador textual no nome do curso. Por exemplo, o curso de licenciatura

em história seria nomeado 'História - Licenciatura'. Desta forma, este

atributo foi obtido por meio da extração deste indicador textual.

 A016 - Para obtenção deste atributo a única transformação necessária foi a união dos discentes com situação acadêmica 'integralizado' e

'formado' em um mesmo grupo para identificar todos os alunos que

concluem o curso e não se evadem. Já nos discentes com situação

Os demais atributos não foram citados, pois não precisaram passar por

nenhum processo de adaptação, transformação, limpeza ou padronização. Por

esta razão, estes foram submetidos aos algoritmos classificadores da atividade

de Mineração de Dados tal como foram extraídos do banco de dados. É

importante ressaltar também que as adaptações necessárias podem ser

diferentes de acordo com o modelo de dados adotado no ambiente do Sistema

de Gestão Acadêmica de cada Instituição Federal de Ensino Superior, devendo

cada uma observar eventuais particularidades do processo de transformação.

No documento Mineração de dados aplicada à classificação do risco de evasão de discentes ingressantes em instituições federais de ensino superior (páginas 89-93)