4. ABORDAGEM PROPOSTA
4.5 PREPARAÇÃO E TRANSFORMAÇÃO DOS DADOS
Uma vez compreendidos os dados e extraídos os atributos que serão
submetidos aos algoritmos de Mineração de Dados, a próxima etapa será a
transformação destes atributos. Esta etapa é essencial em qualquer atividade
de MD e compreende a fase de extração, transformação e carga, ou ETL
(Extract, Transform and Load) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH,
1996). Esta etapa é quase sempre indispensável, uma vez que, não importa
quão organizados os dados estejam, sempre será necessária alguma
adaptação para a submissão dos mesmos aos algoritmos.
Para a proposta desta pesquisa os dados extraídos serão transformados
e submetidos diretamente à atividade de Mineração de Dados. Não haverá
construção de Data Warehouse13, pois o processo não é necessário para a
tarefa de classificação proposta na pesquisa e sua utilização poderia tornar
demasiadamente onerosa a reprodução da abordagem proposta nas demais
IFES. Por esta razão, a transformação dos dados deve ocorrer no momento de
extração dos mesmos. Esta abordagem irá tornar o processo de ETL ainda
13
mais simples e acessível, sendo possível sua reprodução quantas vezes forem
necessárias para obtenção de todos os dados desejados para treinamento e
teste diretamente do banco e organizados por semestre letivo.
Os dados serão então exportados para arquivos individuais separados
pelo período letivo de ingresso do discente e em seguida importados para o
ambiente do Orange, no qual ajustes finais poderão ser realizados in loco,
graças às facilidades oferecidas pela ferramenta adotada. Esta simplificação do
processo é um dos diferenciais da abordagem proposta e será apresentado
nesta seção e nas seguintes, no decorrer do desenvolvimento da mesma.
Definida a estratégia de extração, é preciso entrar em detalhes acerca
da transformação necessária em alguns atributos. É importante ressaltar que
existem várias maneiras para realizar estas modificações, sendo possível
inclusive utilizar os instrumentos fornecidos pela própria linguagem SQL14. Este
processo também envolve a etapa de limpeza dos dados, descrita por muitas
metodologias. Para o conjunto de atributos selecionados as seguintes tarefas
de transformação, limpeza e adaptação foram necessárias:
A001 - Não foram necessárias adaptações para este atributo, no entanto, é interessante que o atributo seja exportado preferencialmente
com o tipo explícito string, isto é, no formato textual. A razão da
utilização do formato de texto e não do formato numérico é para garantir
14
Structured Query Language, ou em português, Linguagem de Consulta Estruturada. Utilizada na extração dos dados armazenados no banco.
a integridade do dado. Ocorre que, durante a etapa de importação os
dados passarão por muitos aplicativos auxiliares e alguns podem,
equivocadamente, remover os dígitos iniciais dos CPF começados com
zero, o que ocasionaria perda da informação coletada.
A003 - Para obtenção deste atributo foi necessário realizar o cálculo do valor da idade no momento do ingresso, uma vez que este dado não é
armazenado diretamente no BD devido à sua especificidade. No
ambiente SIGA-UFPE o processo se deu por meio da subtração do ano
de ingresso do discente da data de nascimento do mesmo.
A004 - Para este atributo foram necessárias algumas adaptações, uma vez que, na base de dados do SIGA-UFPE, a exemplo do que ocorre em
outras instituições, existem diversos valores possíveis para o estado civil
do discente, de acordo com a legislação prevista. Sendo assim, optou-se
pela junção de todos os estados civis previstos na estrutura de dados
em três principais grupos de acordo com a relevância para os objetivos da pesquisa. Os grupos foram: ‘solteiro’, ‘casado’ e ‘outros’.
A005 - Para este atributo foi necessário introduzir uma padronização para os valores possíveis, especialmente para os casos nos quais a
cor/raça do discente não é informada no momento do cadastro, uma vez
que, quando o dado não era informado, os valores eram simplesmente
deixados em branco no banco de dados do SIGA-UFPE. A informação
foi substituída para explicitar os casos onde a mesma não é declarada
A010 - Assim como no atributo anterior, para este atributo também, foi necessário introduzir uma padronização dos dados, uma vez que no BD
do SIGA-UFPE a indicação do tipo da escola de origem do discente
possui vários códigos e está relacionada com o antigo sistema de cotas
adotado pela instituição. Como os sistemas de cotas sofreram diversas
alterações ao longo do tempo, o mesmo não foi selecionado como
atributo para a abordagem proposta. Sendo assim, este atributo sofreu
uma padronização, traduzindo os diferentes valores possíveis para este
dado de forma a revelar apenas o tipo de escola de origem do discente,
seja ela pública ou privada. Esta adaptação foi uma maneira encontrada
de aproveitar as informações coletadas pelos sistemas de cotas, uma
vez que a identificação do tipo específico de cota utilizada pelo discente
não seria possível, devido às mudanças ocorridas no sistema.
A014 - Para tornar possível a obtenção deste atributo foram necessárias algumas transformações, uma vez que o mesmo não é registrado no BD
do SIGA-UFPE de forma explícita. Devido a particularidades da
modelagem do BD o tipo do curso é armazenado por meio de um
indicador textual no nome do curso. Por exemplo, o curso de licenciatura
em história seria nomeado 'História - Licenciatura'. Desta forma, este
atributo foi obtido por meio da extração deste indicador textual.
A016 - Para obtenção deste atributo a única transformação necessária foi a união dos discentes com situação acadêmica 'integralizado' e
'formado' em um mesmo grupo para identificar todos os alunos que
concluem o curso e não se evadem. Já nos discentes com situação
Os demais atributos não foram citados, pois não precisaram passar por
nenhum processo de adaptação, transformação, limpeza ou padronização. Por
esta razão, estes foram submetidos aos algoritmos classificadores da atividade
de Mineração de Dados tal como foram extraídos do banco de dados. É
importante ressaltar também que as adaptações necessárias podem ser
diferentes de acordo com o modelo de dados adotado no ambiente do Sistema
de Gestão Acadêmica de cada Instituição Federal de Ensino Superior, devendo
cada uma observar eventuais particularidades do processo de transformação.