• Nenhum resultado encontrado

O objetivo desta seção é realizar a construção e a validação do modelo através de téc- nicas de mineração de dados. Classificadas como preditivas, consistem em treinar (estimar) o modelo por meio de uma porção de dados testados e validados. O modelo é construído quan- do o ciclo de treino e teste é concluído. Utilizam-se dados com resultados conhecidos para desenvolver um modelo que possa ser utilizado para, explicitamente, prever valores para dife- rentes dados.

O método adotado para determinar o grau de confiabilidade do modelo construído em relação aos dados apresentados foi a validação cruzada que é uma técnica para a estratificação da base de dados em conjunto de treinamento e teste. Adicionalmente, cada algoritmo foi exe- cutado 3 vezes e considerou-se a média aritmética dessas 3 execuções como o desempenho final do algoritmo. No experimento, o classificador foi executado 9 vezes para cada conjunto de treinamento e testes. Um exemplo do método pode ser visto na Figura 12.

Figura 12 - Representação do método de validação cruzada dividido em três subconjuntos

Classificador Classificador Classificador

Média

Validação Validação

Validação

Conjunto Treinamento

Nesse contexto, a fase de mineração de dados é uma fase do processo de Descoberta de Conhecimento em Banco de Dados (KDD). Esta etapa é responsável pela aplicação dos algoritmos que são capazes de identificar e extrair padrões relevantes presente nos dados (HAN, 2006).

O método utilizado foi a mineração de dados. Foi utilizada, também, a aprendizagem supervisionada que faz uso dos dados com a classe especificada. Esta classe, neste estudo, é representada pelo atributo “situação da matrícula”. Este atributo contém as classes matricula- do, concluinte e evadido. A classe evadido é o foco deste estudo. A base de dados utilizada nesse estudo contém 324.335 instâncias, das quais 61.203 são evadidos; 68.480, concluintes e 194.652 estão matriculados. A quantidade de instâncias é igual ao número de alunos, pois cada instância representa um aluno.

Foi utilizado o algoritmo de classificação (árvore de decisão) para se identificar o per- fil dos alunos. A classificação é o processo de encontrar uma definição de modelos que des- crevam e distingam classes de dados ou conceitos (HAN, 2006).

Para gerar as árvores de decisão, foi escolhido o classificador J48, em que cada nó da árvore avalia a existência ou significância de cada atributo individual.

As árvores de decisão são construídas do topo para a base, partindo da escolha do atri- buto mais apropriado para cada situação. Uma vez escolhido o atributo, os dados de treino são divididos em subgrupos, correspondendo aos diferentes valores dos atributos. O processo é

repetido em cada subgrupo até que uma grande parte dos atributos, em cada subgrupo, perten- ça a uma única classe.

Para a criação do modelo, utilizou-se o algoritmo J48. Para avaliar a precisão do mo- delo, foi utilizado o classificador “ZeroR” para delinear a precisão mínima aceitável utilizada para julgar a qualidade do classificador J48 (BOCKARET et all., 2013). Para estabelecer o limite máximo de precisão, foi utilizado o método “Use training set” que utiliza, para realiza- ção de teste, o mesmo conjunto de treinamento utilizado para predição e, para validação do modelo, utilizou-se o método indicado por Witten, Frank e Hall (2011), “K - fold Cross-

Validation”.

O modelo foi executado para: (i) base de dados completa com a visão Brasil, (ii) base de dados dividida com a visão da região Sudeste e (iii) base de dados dividida com a visão do estado de Minas Gerais. A precisão alcançada é apresentada no Gráfico 2.

Gráfico 2 - Precisão das Predições da Árvore de Decisão

Como esperado, a precisão cai ao se utilizar uma base de dados menor. Como resulta- do, foi obtida a taxa de exatidão 66.4% restando apenas 2,9% para atingir o limite máximo de precisão da amostra, contendo informações de matrículas da educação profissional técnica de nível médio realizadas em todo o Brasil.

Ao compararmos os resultados dos conjuntos de dados da região Sudeste (60.3%) e do estado de Minas Gerais (59,7%) com o limite máximo de precisão da amostra, vemos que a

exatidão do modelo é bem próxima, o que indica que o modelo possibilita predições sólidas e não falhará se aplicarmos, na base, alunos dos cursos técnicos do SENAI.

Abaixo serão demonstrados os resultados obtidos na matriz de confusão. A análise foi dividida em visões por Estado, Região e Brasil.

Analisando a matriz de confusão, podemos observar informações importantes do re- sultado do modelo quando aplicamos o algoritmo utilizando a base de dados com todas as classes (Concluinte, Evadido e Em andamento) influenciadas pela predominância de instân- cias da classe “Em andamento”. Em todas as visões (Estado, Região e Brasil), a matriz de confusão apresentou que, para a classe “Evadidos”, a quantidade de exemplos de linhas classi- ficadas corretamente foi inferior à quantidade de linhas classificadas erroneamente.

Para analisar se os resultados apresentados na matriz de confusão foram influenciados pelo desbalanceamento entre as classes do banco de dados, foram excluídas da base de dados as instâncias da classe “Em andamento”, restando apenas as classes “Concluída” e “Evadida”. A matriz de confusão gerada para as bases (i) com todas as classes (Evadida, Concluída e Em andamento) e (ii) com duas classes (Evadida e Concluída) é apresentada nas tabelas abaixo, por Estado (MG), Região Sudeste e Brasil.

Tabela 2 - Matriz de Confusão e Predições da visão do estado de Minas Gerais

Estado MG

Base (todas as classes - Evadida, Concluída e Em

andamento).

Base (com as classes Eva- dida e Concluída).

59,7% 68,5% Precisão das Predições

A B C A B C Matriz de Confusão

8.699 226 6.970 13.251 2.644 N/A Concluída - A 2.997 195 9.759 6.442 6.509 N/A Evadida - B

4.001 303 27.528 N/A N/A N/A Evadida - C

N/A: Não se aplica

Tabela 3 - Matriz de Confusão e Predições da visão da região Sudeste

Região Sudeste

Base (todas as classes - Evadida, Concluída e Em

andamento).

Base (com as classes Eva- dida e Concluída).

60,3% 66,7% Precisão das Predições

A B C A B C Matriz de Confusão

15.520 2.788 13.139 21.977 9.470 N/A Concluída - A 7.206 3.379 21.936 11.828 20.693 N/A Evadida - B 7.367 2.960 65.241 N/A N/A N/A Evadida - C

Tabela 4 - Matriz de Confusão e Predições da visão Brasil

Brasil

Base (todas as classes - Evadida, Concluída e Em

andamento).

Base (com as classes Eva- dida e Concluída).

66,4% 69,9% Precisão das Predições

A B C A B C Matriz de Confusão

34.036 3.907 30.537 52.690 15.790 N/A Concluída - A 12.175 5.478 43.550 23.146 38.057 N/A Evadida - B 14.277 4.602 175.773 N/A N/A N/A Evadida - C

N/A: Não se aplica

E possível observar que, ao aplicarmos o modelo para a base de dados contendo ape- nas as classes “Evadida” e “Concluída”, a quantidade de linhas da classe evadidos classifica- das corretamente é maior que a quantidade de linhas classificadas erroneamente. Assim, fica comprovado que a classe “Em andamento”, por possuir muito mais casos do que as outras classes, tem influência sobre os resultados da classe “Evadida”. Entretanto, entendemos que, mesmo a classe de interesse sendo a minoritária (Evadida), o classificador enviesado para a classe majoritária (Em andamento) poderá valorizar as classes (ou casos) de maior relevância para a classe minoritária e, assim, obter alto índice de acerto para as classes de menor fre- quência. Deste modo, o modelo possibilita predições sólidas mesmo para a base de dados con- tendo todas as classes.

Também é possível observar que, na base contendo as classes “Evadida” e ”Concluí- da” apresentada na tabela com os resultados da visão Brasil, dos 61.203 exemplos de linhas da classe evadidos, 38.057 foram classificados corretamente e 23.146 classificados erroneamente como concluintes e que, dos 68.480 exemplos de linhas da classe concluintes, 52.690 foram classificados corretamente e 15.790 classificados erroneamente como evadidos. Desta forma, obtemos o seguinte resultado: 90.747 instâncias classificadas corretamente e 38.936 instâncias classificadas erroneamente, perfazendo um total de 129.683 instâncias analisadas.

O desempenho do classificador também foi avaliado por meio da curva ROC. Curvas ROC definem um método gráfico bidimensional para avaliação, organização e seleção de pre- dições. Nelas, o eixo horizontal representa os valores da taxa de falsos positivos (1− especifi- cidade ) e o eixo vertical, os valores da taxa positiva verdadeira (sensibilidade). O conheci- mento da área sob a curva possibilita quantificar a exatidão de um classificador (proporcional à área sob a curva ). Uma análise usando a curva ROC pode ser usada para se calcular a área abaixo da curva, sendo que, quanto mais próximo da unidade for o valor, melhor será a meto- dologia usada.

A área sob a curva ROC é a medida do desempenho de um modelo (índice de exatidão do modelo). Um modelo totalmente incapaz de discriminar características do aluno propenso a evadir do curso técnico teria uma área sob a curva de 0,50 (seria a hipótese nula). Acima de 0,70 é considerado desempenho satisfatório.

Na Figura 13, o gráfico extraído do WEKA apresenta o cálculo da área sob curva da classe “Evadida” em cada caso. Dos resultados médios obtidos pelo algoritmo de classifica- ção, pode-se destacar que a área sob a curva ROC dos métodos empregados obteve uma acu- rácia satisfatória que atingiu um valor de 75,74%.

Figura 13 – Área sob a curva ROC para a classe Evadida

Uma característica do processo KDD é que, quando não se atingem resultados bons, pode-se voltar a qualquer etapa e fazer mudanças. Neste caso, entende-se que não é necessá- rio, tendo em vista que as porcentagens apresentadas são aceitáveis para quando formos testar futuros dados e para que não venhamos a tomar decisões equivocadas.

Documentos relacionados