• Nenhum resultado encontrado

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO PARÁ CAMPUS BELÉM CURSO DE TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS

N/A
N/A
Protected

Academic year: 2021

Share "INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO PARÁ CAMPUS BELÉM CURSO DE TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS"

Copied!
64
0
0

Texto

(1)

CLEYTONDEOLIVEIRAVALE

USO DE MINERAÇÃO DE DADOS PARA AVALIAÇÃO DE FATORES DE EFEITO ESCOLA E BACKGROUND COM MICRODADOS DO ENADE

BELÉM/PA 2018

(2)

USO DE MINERAÇÃO DE DADOS PARA AVALIAÇÃO DE FATORES DE EFEITO ESCOLA E BACKGROUND COM MICRODADOS DO ENADE

Trabalho de Conclusão de Curso apresentado ao Instituto Federal de Educação, Ciência e Tecnologia do Pará - IFPA - Campus Belém, como requisito para obtenção de Grau em Tecnologia em Análise e Desenvolvimento de Sistemas.

Orientadora: Profa. M.Sc. Rita de Cássia Cerqueira Gomes.

BELÉM/PA 2018

(3)

USO DE MINERAÇÃO DE DADOS PARA AVALIAÇÃO DE FATORES DE EFEITO ESCOLA E BACKGROUND COM MICRODADOS DO ENADE

Trabalho de Conclusão de Curso apresentado ao Instituto Federal de Educação, Ciência e Tecnologia do Pará - IFPA- Campus Belém, como requisito para obtenção de Grau em Tecnologia em Análise e Desenvolvimento de Sistemas.

Data da defesa: 30/01/2018

Conceito: 9,0

Orientadora: Profª. M.Sc. Rita de Cássia Cerqueira Gomes

Instituto Federal de Educação, Ciência e Tecnologia do Pará – Campus Belém

Prof. M.Sc. Márcio Góes do Nascimento

Instituto Federal de Educação, Ciência e Tecnologia do Pará – Campus Belém

Profa. M.Sc. Joelma Fabiane Ferreira Almeida

(4)

Às pessoas que de alguma forma participaram desta etapa.

(5)

Primeiramente a Deus, pelo conhecimento e sabedoria, determinação, força, foco e coragem.

A orientadora, professora Rita de Cássia Cerqueira Gomes, pela paciência e conhecimentos compartilhados.

A minha família, em especial minha mãe e avó, pela dedicação e apoio em todos os momentos em que me incentivaram para minha realização profissional e ressaltaram meu potencial para tal.

(6)

A melhoria das instituições do ensino superior, seja pública ou privada, tem contribuído para conduzir bons profissionais ao mercado de trabalho. No entanto, critérios externos ao aluno, como: infraestrutura da instituição, bons laboratórios, boa didática do professor, atributos esses conhecidos por “efeito escola”, não são suficientes para explicar o desempenho do aluno, pois existem também critérios internos, influenciados por fatores socioeconômicos, denominados background. Este trabalho, com o auxílio da teoria do filósofo Bourdieu sobre o capital social, utilizará ferramentas e técnicas de mineração de dados, como a ferramenta

weka e os algoritmos de árvore de decisão e floresta aleatória, para analisar o microdado do

Exame Nacional de Desempenho de Estudantes – ENADE, no intuito de investigar quais fatores são mais importantes na nota bruta do aluno, se os relacionados ao “efeito escola” ou se ao background. Para isso, se utilizou os dados do ENADE do Curso de Tecnologia em Análise e Desenvolvimento de Sistemas – TADS dos anos de 2008, 2010 e 2014.

Palavras-chave: Capital Social. ENADE. Árvore de Decisão. Floresta Aleatória. “Efeito escola”. Background.

(7)

The improvements of higher educational institutions, public or private, have been contributed to lead good professionals to the job market. However, external factors to the student, such as: infrastructure of the institution, good laboratories, good teacher's didactics, these attributes are known as School Effect. They are not enough to explain the student performance, because there are also internal parameters, influenced by socioeconomic factors, called Background. This work, with the help of the philosopher Bourdieu’s theory of Social Capital, will use data mining tools and techniques, such as the weka tool and the decision tree and random forest algorithms, to analyze the micro-data from the National Student Performance Examination – NSPE, in order to investigate which factors, if those related to the School Effect or the Background, are most important in the student’s gross grade. For this, it was evaluated the data of the NSPE of the Course of Technology in Systems Analysis and Development – TSAD of the years 2008, 2010 and 2014.

(8)

Tabela 1 – Estatística básica da prova, por grupo de estudantes de TADS

ENADE/2008... 18

Tabela 2 – Estatística básica da prova, TADS – ENADE/2011... 19

Tabela 3 – Estatística básica da prova, TADS– ENADE/2014... 19

Figura 1 – Visualização da árvore de decisão gerada com dois atributos do ENADE 2011 criada na plataforma Weka... 22

Fórmula 1 – Equação do ganho da informação... 23

Fórmula 2 – Equação da Entropia... 23

Fórmula 3 – Razão de ganho... 24

Figura 2 – Microdado do ENADE 2011 com três atributos e dez instâncias, criado na plataforma Weka... 24 Figura 3 – Análise de atributo co_rs_s5 como melhor atributo... 25

Figura 4 – Análise de atributo co_rs_s13 como melhor atributo... 25

Figura 5 – Cálculos de entropia e ganho dos atributos co_rs_s5 e co_rs_s13... 26

Quadro 1 – Matriz de confusão... 28

Figura 6 – Conjunto de fórmulas de avaliação... 28

Fórmula 4 – Probabilidade condicional... 29

Figura 7 – Modelos de classificação no espaço ROC... 30

Fórmula 5 – Cálculo da probabilidade esperada... 30

Fórmula 6 – Cálculo da probabilidade obtida... 30

Fórmula 7 – Cálculo da concordância KAPPA... 30

Quadro 2 – Qualificação de modelos... 31

Figura 8 – The Knowledge Discovery Process... 32

Figura 9 – Fases do modelo CRISP-DM... 34

Figura 10 – Fase de entendimento do negócio (business understanding)... 35

Figura 11 – Fase de entendimento do dado (data understanding)... 37

Figura 12 – Fase de preparação do dado (data preparation))... 38

Figura 13 – Fase de modelagem (modeling)... 39

Figura 14 – Fase de avaliação (evaluation)... 40

(9)

Figura 17 – Matriz de confusão... 45

Figura 18 – Curva ROC para nota “D” da prova de 2008... 45

Quadro 4 – Métricas de desempenho... 46

Figura 19 – Distribuição de nota para cada atributo, microdados de 2011... 46

Quadro 5 – Ranking de atributos, microdados de 2011... 47

Figura 20 – Matriz de confusão árvore de decisão à esqueda e à direita floresta aleatória... 48 Figura 21 – Curva ROC para nota D da prova de 2011. A esquerda algoritmo de árvore de decisão e a direita floresta aleatória... 49 Quadro 6 – Métricas de desempenho... 49

Figura 22 – Distribuição de nota para cada atributo, microdados de 2014... 50

Quadro 7 – Ranking de atributos, microdados de 2014... 51

Figura 23 – Matriz de confusão árvore de decisão à esqueda e à direita floresta aleatória... 52 Figura 24 – Curva ROC para nota D da prova de 2014. A esquerda algoritmo de árvore de decisão e a direita floresta aleatória... 52 Quadro 8 – Métricas de desempenho... 52

(10)

ARFF – Attribute-Relation File Format

ASCII – American Standard Code for Information Interchange

CRISP-DM – Cross-industry Standard Process for Data Mining

ENADE – Exame Nacional de Desempenho de Estudantes GNU – General Public License

IES – Instituições de Educação Superior

INEP – Instituto Nacional de Estudos e Pesquisa Educacionais Anísio Teixeira MEC – Ministério da Educação

ROC – Receiver Operating Characteristic

SINAES – Sistema Nacional de Avaliação da Educação Superior TADS – Tecnologia em Análise e Desenvolvimento de Sistemas

(11)

1 INTRODUÇÃO... ... 12 1.1 Objetivos... ... 13 1.1.1 Objetivo Geral... ... 13 1.1.2 Objetivos Específicos... .. 13 1.2 Estrutura do Trabalho... .. 13 2 ENADE... .. 15

2.1 Conceitos de "Efeito Escola" e Background... .. 16

2.2 Desempenhos de Alunos de TADS no ENADE... ... 18

3 DATA MINING... .. .21

3.1 Árvore de decisão... ... 21

3.2 Florestas aleatórias... ... 26

3.3 Atributo e método de busca... ... 27

3.4 Qualificação de desempenho... .. 27

3.4.1 Matriz de confusão... .... 27

3.4.2 Gráfico ROC... .... 29

3.4.3 Índice de concordância Kappa... .... 30

4 METODOLOGIA CRISP-DM... . 32

4.1 Entendimento do negócio... .. 34

4.2 Entendimento dos dados... .. 35

4.3 Preparação dos dados... . 37

4.4 Modelagem dos dados... .. 38

4.5 Avaliação e Disponibilidade... ... 39

5 ANÁLISE DE DADOS DO ENADE... .. 41

5.1 ENADE de 2008... .. 42 5.2 ENADE de 2011... .. 46 5.3 ENADE de 2014... .. 49 6 CONSIDERAÇÕES FINAIS... ... 53 REFERÊNCIAS...55 APÊNDICE...58

(12)

1 INTRODUÇÃO

Segundo o Ministério da Educação, houve um aumento de 80% de concluintes do ensino superior em 12 anos com mais 9,2 milhões de concluintes dos cursos de graduação de 2013 a 2014 (PORTAL BRASIL, 2016). Esse panorama demonstra o maior acesso às universidades e melhor democratização do ensino.

Para analisar o nível de conhecimento do estudante, o governo criou o Exame Nacional de Desempenho de Estudantes (ENADE) que é obrigatório para situação de regularidade do aluno, devendo constar em seu histórico. O teste, criado em 2004, tem como objetivo avaliar o rendimento dos ingressantes e concluintes dos cursos de graduação, em relação aos conteúdos programáticos, habilidades e competências adquiridas em sua formação (PORTAL INEP, 2016).

Além disso, dos resultados do ENADE são gerados boletins de desempenho do estudante de graduação, relatório do curso, da área, da instituição e resumos técnicos que determinam os conceitos necessários para análise das instituições. Seus microdados são disponibilizados no sítio do Instituto Nacional de Estudos e Pesquisa Educacionais Anísio Teixeira (INEP), o que possibilita transparência e permite que qualquer pessoa possa estudá-los e analisá-estudá-los.

A proposta deste trabalho, então, é analisar, por meio de técnicas computacionais, os dados disponíveis no ENADE, no intuito de definir as influências ou relevâncias do

background1do aluno no desempenho do exame. Serão avaliados os estudantes do Curso de Tecnologia em Análise e Desenvolvimento de Sistemas (TADS) e confrontados com o “efeito escola”, conceito no qual considera mais influenciadores os atributos do ambiente escolar, como: infraestrutura física, recursos, ferramentas educacionais, projetos pedagógicos, gestão e corpo docente, conforme exposto por Bertoli e Marcon (2015, p. 111).

Nesse sentido, o foco é analisar alguns atributos presentes nos microdados2 do ENADE, categorizá-los como background ou “efeito escola”, para então comparar quais dessas categorias apresentam maior influência no rendimento do aluno no exame nacional.

Para isso, a pesquisa conta com uma abordagem aplicada ou prática, conforme Gil (1999), em que está intimamente relacionada com a resolução de um problema. Ela baseia-se em um arcabouço teórico definido, sendo classificada como quantitativo devido visar analisar

1

Conceito relacionado aos aspectos familiares, sociais, econômicos e culturais do aluno.

2 “Os microdados do INEP se constituem no menor nível de desagregação de dados recolhidos por pesquisas,

(13)

quantitativamente os microdados do ENADE de alunos do Curso de TADS que preencheram o questionário e prestaram ao exame.

1.1 Objetivos

1.1.1 Objetivo Geral

Analisar a base de dados do ENADE, por meio de ferramentas e técnicas de Data

Mining, para definir quais fatores, “efeito escola” ou background, influenciam no

desempenho dos alunos.

1.1.2 Objetivos Específicos

a) Analisar o ENADE e fatores de desempenho da prova de alunos do Curso de TADS; b) Apresentar a metodologia de Data Mining com o framework Cross-Industry Standard

Process for Data Mining (CRISP-DM 1.0) para realizar o processo de conhecimento

do negócio ou problema, entendimento dos dados, sua preparação, modelagem e apresentação dos dados, avaliação dos resultados para tomadas de decisões, descrevendo as técnicas, as ferramentas e os procedimentos necessários para a análise de dados do ENADE;

c) Descrever técnicas de análise de dados, utilizando a ferramenta Weka;

d) Utilizar e comparar os algoritmos de árvore de decisão e floresta aleatória para interpretar o microdado.

1.2 Estrutura do Trabalho

O trabalho é dividido em cinco capítulos:

 O primeiro capítulo aborda o ENADE, mostrando os resultados do exame nos anos de 2008, 2011 e 2014, apresentando a teoria sobre os conceitos de “Efeito Escola” e

Background e o desempenho dos alunos do Curso de TADS.

No segundo capítulo é explicado como funciona os algoritmos de data mining árvore de decisão e floresta aleatória, algoritmos que serão utilizados no trabalho para classificação de atributos do ENADE.

 O capítulo 3 aborda a metodologia CRISP-DM que representa uma metodologia de mineração de dados.

(14)

 No quarto capítulo, é realizada a análise de dados do ENADE, identificando quais os fatores que influenciam no desempenho dos alunos.

 Por fim, o quinto e último capítulo apresenta as considerações finais e as sugestões para futuras pesquisas nesta área.

(15)

2 ENADE

O Exame Nacional de Desempenho de Estudantes (ENADE) é obrigatório e a situação de regularidade do aluno no referido exame deve fazer parte de seu histórico escolar. Serve para avaliar o desempenho dos ingressantes de 0 a 25% do curso finalizado e concluintes que tenham integralizado pelo menos 80% do curso até o final das inscrições da prova. O exame considera conteúdos programáticos, habilidades e competências adquiridas na formação do aluno e sua primeira aplicação ocorreu em 2004, tendo periodicidade de avaliação trienal para cada área do conhecimento (PORTAL INEP, 2017).

A função do ENADE é também de verificar o desempenho dos estudantes, avaliando os conteúdos programáticos integrados com as diretrizes curriculares dos cursos de graduação, analisando o nível de renovação ou modernização dos estudantes com relação a realidade brasileira e mundial.

O ENADE é agregado ao Sistema Nacional de Avaliação da Educação Superior (SINAES), o qual avalia o desenvolvimento de competências e habilidades necessárias ao aprofundamento da formação geral e profissional. O SINAES foi criado pela Lei n° 10.861, de 14 de abril de 2004, e é composto pelos processos de Avaliação de Cursos de Graduação e de Avaliação Institucional que gravitam em torno de aspectos relacionados ao ensino, pesquisa e extensão, a gestão da instituição, análise do corpo docente e instalações, as quais somadas ao ENADE permite conhecer a qualidade dos cursos e das Instituições de Educação Superior (IES) de todo o Brasil.

O resultado do ENADE somado às respostas do questionário do estudante (instrumento de coleta de informação de caráter obrigatório para realização do ENADE) representam elementos fundamentais para a geração de boletins de desempenho do estudante de graduação, relatórios do curso, da área, da instituição e resumos técnicos que determinam os conceitos necessários para análise das instituições. Seus microdados são acessíveis, de acordo com a Lei de Acesso a Informação (Lei n° 12.527), e disponibilizados no sítio do INEP, o que possibilita transparência e permite que qualquer pessoa possa estudá-los e analisá-los.

Os microdados do ENADE apresentam coleta dos dados dos estudantes como questionário socioeconômico, desempenho do aluno na prova e análise de Instituições de Ensino Superior (IES), o que possibilita uma compreensão melhor dos diferentes problemas e obstáculos que a educação superior se encontra e permite analisar fatores ou conceitos intimamente ligados, “Efeito Escola” e Background, ao desempenho do aluno.

(16)

2.1 Conceitos de "Efeito Escola" e Background

O sociólogo e filósofo francês Pierre Bourdieu desenvolveu vastos estudos sobre a escola e seu papel de moldar mentalidades e comportamentos. Em alguns de seus trabalhos, aborda Les trois états du capital cultural (Os três estados do capital cultural), o qual caracteriza “sucesso escolar”3 ou rendimento escolar como influência de três conceitos: estado incorporado, estado objetivado e estado institucionalizado.

O estado incorporado, segundo Bourdieu (1979, p. 3-6) representa um modo como o capital cultural é obtido, considerando, para isso, o seu tempo de aquisição, que acontece de maneira inconsciente, e não pode ser transferido para outra pessoa imediatamente, nem comprado ou trocado, ou seja, este estado está diretamente relacionado ao indivíduo e ao que ele acumulou em sua trajetória, ou por meio de recursos conquistados por herança familiar ou acesso, de alguma forma, a determinados conteúdos pedagógicos que possibilitam maiores vantagens no ambiente escolar.

O estado objetivado representa os bens culturais do indivíduo propriamente ditos, como: livros, quadros, instrumentos de produção cultural, científica, o qual, dependendo da condição econômica da família, possibilita maior ou menor acesso aos meios simbólicos e culturais, gerando também um impacto direto no “sucesso escolar” do aluno, como ressalta Bourdieu (1979, p. 3-6).

O estado institucionalizado corresponderia à certificação ou diplomação do indivíduo, constituindo, dessa forma, em uma comprovação de competência cultural por uma instituição. Esse estado representaria a institucionalização do capital cultural, porquanto beneficiaria os detentores do “sucesso escolar”.

Nesse sentido, a escola para Bourdieu legitimaria condicionamentos sociais, dissimulando o rendimento escolar como consequência apenas de méritos individuais, ocultando, assim, fatores anteriores à escola, frutos da vivência e condição social do indivíduo, sem considerar fatores mais complexos constituintes do aluno:

“Fazendo hierarquias sociais [...] parecerem estar baseadas em hierarquia de ’dons‘, mérito ou habilidade [...] o sistema educacional preenche a função de legitimação [...] da ordem social.” (BOURDIEU, 1977, p. 496 apud SILVA, 1995, p. 29).

3

Termo usado por Bourdieu para criticar o êxito escolar que muitas vezes é apresentado, de forma consciente ou inconsciente, como consequência de habilidades naturais do estudante sem considerar fatores históricos e sociais dos indivíduos.

(17)

Após o período em que Bourdieu desenvolveu a teoria do capital cultural novas pesquisas de caráter quantitativo vêm sendo desenvolvidas sobre o assunto, em que não consideram a escola básica como principal fator determinante no desempenho dos alunos em exames. Ao longo dos anos, o tema é abordado pela literatura como fatores relacionados ao desempenho dos estudantes na educação e pesquisas sobre a sua eficácia escolar sendo agrupadas em duas categorias denominadas de “Efeito Escola” e background. Frequentemente, o cerne do debate está na relação do efeito de cada categoria no desempenho dos estudantes:

“O efeito escola considera os atributos relacionados ao ambiente escolar, tais como: infraestrutura física, recursos e ferramentas educacionais, projeto pedagógico, gestão e corpo docente. O background inclui, fundamentalmente, o contexto familiar, social, econômico e cultural dos alunos.” (BERTOLIN; MARCON, 2015, p. 111-112).

Os conceitos como “efeito escola” e background foram bastante abordados, provavelmente de forma pioneira, pelo pesquisador James Coleman em 1966, nos EUA, com seu trabalho intitulado “Equality of Education Opportunity”, conhecido como Relatório Coleman, em que foram analisados cerca de 640 mil alunos e 4 mil escolas no intuito de verificar as desigualdades qualitativas presentes nas escolas de negros e brancos. Verificou-se que, diferentemente do que se pensava, os insumos e equipamentos proporcionados pelas diferentes escolas analisadas apresentavam baixa influência no rendimento escolar básico dos alunos se comparados com parâmetros relacionados ao background, os quais foram mais relevantes na pesquisa.

Outro relatório importante foi o desenvolvido pelo Conselho Consultivo Central para Educação da Inglaterra4, o qual também demonstrou que a influência dos fatores sociais e familiares (background) como mais importantes em relação à escola. A pesquisa analisou cerca de 107 escolas do ensino fundamental inglês e constatou que a porcentagem da variação relacionada ao desempenho escolar foi consequência do background dos alunos, com 48%, os quais comparados com fatores que descreveram as condições escolares foram de apenas 17%, conforme aborda Brooke e Soares (2008 apud BERTOLIN; MARCON, 2015, p. 113).

Dessa forma, o background e o “Efeito Escola” apresentam seus papéis no rendimento do aluno e contribuem para uma análise mais complexa sobre fatores que influenciam no desempenho de estudantes de um curso de graduação, como os do curso de TADS.

4 Conhecido como relatório Plowden, publicado em 1967, consistiu em realizar uma análise da situação escolar

(18)

2.2 Desempenhos de Alunos de TADS no ENADE

O curso de Tecnologia em Análise e Desenvolvimento de Sistemas (TADS) realizou o ENADE nos anos de 2008, 2011 e 2014 para medir o desempenho5 dos alunos em todo Brasil pelas instituições superiores (públicas e privadas) que possuem o referido curso. O relatório síntese dos respectivos anos de realização das provas avaliou a percepção do aluno sobre a prova, sua análise técnica, distribuição dos conceitos no contexto nacional e regional e características dos estudantes.

Em 2008 foram analisadas 252 Instituições de Ensino Superior (IES), distribuídas pelo Brasil, sendo convocados 14.730 estudantes, dos quais compareceram 11.083 alunos, cuja nota máxima dentre eles foi de 87,7, conforme Tabela 1.

Tabela 1: Estatística básica da prova, por grupo de estudantes de TADS – ENADE/2008.

Estatística Total Grupo Ingressantes Concluintes População 23.997 16.643 7.354 Tamanho da amostra 14.730 9.168 5.562 Presentes 11.083 6.529 4.554 Média 36,1 34,0 40,8 Erro-padrão da média 0,1 0,1 0,1 Desvio-padrão 12,5 11,9 12,4 Nota mínima 0,0 0,0 0,0 Mediana 35,3 33,4 40,5 Nota máxima 87,7 78,7 87,7

Fonte: MEC/INEP/DEAES – ENADE/2008.

O formato da prova ENADE/2008 foi realizada em duas etapas, sendo prestadas no mesmo dia: a primeira, compondo 8 (oito) questões objetivas de múltipla escolha e 2 (duas) discursivas; a segunda parte, 27 (vinte e sete) questões de múltipla escolha e 3 (três) questões discursivas, totalizando 40 (quarenta) questões.

5 Neste trabalho, o desempenho do aluno está relacionado a sua nota bruta adquirida na realização completa do

(19)

O ENADE/2011 e ENADE/2014 apresentaram mesmo formato da prova do ENADE/2008. No ENADE de 2011, foram 10.750 inscritos, dos quais compareceram 7.438, cuja nota máxima foi 88,0, conforme Tabela 2.

Tabela 2: Estatística básica da Prova, TADS – ENADE/2011.

Estatísticas Brasil Inscritos 10.750 Ausente 3.312 Presentes 7.438 %Ausentes 30,8% Média 40,1

Erro Padrão da média 0,2

Desvio Padrão 15,4

Mínima 0,0

Mediana 38,7

Máxima 88,0

Fonte: MEC/INEP/DAES – ENADE/2011.

No ENADE de 2014, foram cerca de 15.208 alunos inscritos e compareceram 11.130. A nota máxima foi de 91,5 na prova, conforme Tabela 3.

Tabela 3: Estatística básica da Prova, TADS – ENADE/2014.

Estatística Brasil Inscritos 15.208 Ausentes 4.078 Presentes 11.130 %Ausentes 26,8% Média 40,4

Erro padrão da média 0,1

Desvio padrão 13,2

Mínima 0,0

Mediana 39,7

Máxima 91,5

(20)

Neste sentido, percebeu-se um leve aumento na nota média dos alunos de 11,08% entre 2008 e 2011 e de 0,74% entre 2011 e 2014. Desta forma, a prova do ENADE permitiu visualizar como foi o desempenho dos alunos do Curso de TADS no Brasil.

(21)

3 DATA MINING

Os algoritmos de mineração de dados são utilizados na construção de padrões para o desenvolvimento de conhecimento (knowledge) a partir de dados. Esses dados que serão analisados (dataset) apresentam diferentes tipos de atributos, conforme apresenta Bramer (2016, p. 26-28).

Os atributos podem ser categóricos ou contínuos, sendo o primeiro utilizado em variáveis nominais, binárias e ordinais e o segundo corresponde a variáveis inteiras, escala-intervalares e proporcionais (BRAMER, 2016, p. 28).

A preparação é a etapa inicial para entender os dados, sendo esta etapa o momento para a limpeza, retirar valores errados, instâncias duplicadas, dados ausentes e selecionar apenas atributos relevantes para a análise. A redução dos atributos e instâncias precisa ser estudada de forma atenciosa, pois a retirada de dados de modo arbitrário pode influenciar no resultado. Nesta etapa, os dados serão analisados e explorados para inspeção de correlações envolvidas e serão removidos os outliers, que são os dados “fora da curva” ou que fogem do padrão da análise, como apresentado em Aquarela (2017).

As técnicas de mineração de dados abrangem uma imensa quantidade de algoritmos que são utilizadas para aprendizado de máquina. Este aprendizado se divide basicamente em aprendizado supervisionado e não supervisionado. No aprendizado supervisionado, como apresenta Koerich (2005, p. 1), as amostras estão rotuladas, ou seja, apresenta um “valor de conceito-alvo” relacionado às suas entradas como um “professor” que ensina acerca do resultado desejado. Diferentemente ocorre no aprendizado não supervisionado, em que este “professor” é ausente e os dados não são rotulados.

Neste trabalho, foi escolhido utilizar o algoritmo de árvore de decisões (decision trees) e floresta aleatória (random forest) por apresentarem fácil compreensão para análise e devido fazer parte do grupo de algoritmos supervisionados e possuírem elevado teor interpretativo em problemas de classificação.

3.1 Árvore de decisão

O algoritmo de árvore de decisão é bastante utilizado para classificação e faz parte do grupo de algoritmos supervisionados, haja vista que o número de classe pode ser selecionado

(22)

classificação pelo reconhecimento de relacionamentos, em base de dados rotulados, entre variáveis dependentes e independentes, conforme destacado por Zuben e Attux (2010, p. 2).

A árvore de decisão trabalha com classes discretas e contínuas, no entanto sua maior performance está em classes discretas6, o que torna interessante particioná-las no momento do pré-processamento de dados. A estrutura básica do algoritmo é de nó, ramos e folhas. O primeiro atributo nó é o primeiro representativo da árvore conhecido como nó raiz e a partir dele serão definidos seus ramos e folhas, conforme exemplificados na Figura 1, com os atributos “co_rs_s13” e “co_rs_s5” sendo comparados com o “atributo-alvo7” – “nt_ger”

(implícito nas folhas da árvore), onde serão feitas as correlações e análises com 376.181 instâncias, em que cada instância representa um participante do ENADE8.

Figura 1: Visualização da árvore de decisão gerada com dois atributos do ENADE 2011 criada na plataforma Weka.

Fonte: AUTOR, 2017.

Na Figura 1, a árvore de decisão apresenta o nó raiz que é definido a partir dos conceitos de Entropia, que permite analisar o grau de pureza de um dado conjunto, e de Ganho, o qual apresenta quanto reduziu o conjunto S dada sua Entropia (GFBIOINFO, 2018). Seus ramos, por sua vez, são os valores dos atributos que serão comparados com o “atributo-alvo”, gerando, assim, as folhas. Dessa forma, as árvores de decisões são constituídas de forma botton-up, do nó raiz para suas folhas.

A escolha de atributos de predição para definição de nós da árvore é baseada em critérios, como: distância, dependências e impureza, para seleção da melhor divisão, que

6 Representa o agrupamento de dados em intervalos ou faixas menores no intuito de diminuir a complexidade

gerada por dados contínuos cujos valores são infinitos.

7

O “atributo-alvo” representa o atributo principal com que será feita a comparação com os demais atributos. Nesse caso específico, é o atributo “nt_ger”.

(23)

geralmente trabalham com função de divisão univariável, sendo cada nó interno da árvore dividido conforme apenas um atributo. Nesse sentido, o algoritmo tenta buscar o melhor atributo para a realização da divisão, como explica Zuben e Attux (2010, p. 20).

Alguns algoritmos visam trabalhar na impureza dos dados objetivando ganho de informação, tendo a entropia como medida de impureza. Quilan (1986, p. 87-96), um dos iniciantes na área de árvore de decisão, apresentou um artigo, denominado Induction of

Decision Trees (Indução de Árvores de Decisões), em que descreve matematicamente o

funcionamento do algoritmo ID3, conforme a Fórmula 1:

Fórmula 1: Equação do ganho da informação.

𝐺𝑎𝑛ℎ𝑜(𝑆, 𝐴) = 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎 (𝑆) − ∑ (|𝑆𝑣|

|𝑆| 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎(𝑆𝑣))

𝑐

𝑣∈𝑣𝑎𝑙𝑢𝑒𝑠(𝐴) Fonte: GFBIOINFO, 2018.

A fórmula do Ganho da informação significa a redução esperada na entropia do conjunto S ordenado pelo atributo A, sendo S o conjunto de exemplos de treinos ou instâncias. A variável Sv representa os dados após o critério de divisão, como exemplificado na Figura 1 pelo atributo “co_rs_s13” que divide suas 376.181 instâncias (S) em variáveis ou ramos, Sv = {A, B, C, D, E, F} para classificação e geração das folhas em um índice c, ou seja, de v a c.

No entanto, para obter o Ganho da informação é necessário antes conhecer a Entropia que é definida na Fórmula 2:

Fórmula 2: Equação da Entropia.

𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎(𝑆) = ∑ − 𝑃𝑖

𝑐

𝑣∈𝑉𝑎𝑙𝑢𝑒𝑠(𝑆)

log2𝑃𝑖

Fonte: YE, 2014, p. 40.

A equação da Entropia de um conjunto S é a somatória de valores considerando c seus diferentes valores do “atributo-alvo” e Pi a probabilidade de registros de dados em um conjunto de dados possuir o mesmo “atributo-alvo”. A entropia permite “[...] medir a ’falta de informação’, mais precisamente o número de bits necessários, em média, para representar a informação em falta” (GFBIOINFO, 2018).

(24)

O algoritmo de árvore de decisões ID3 foi aprimorado para C4.5 (algoritmo presente e utilizado no weka como J48), ainda bastante utilizado atualmente. Nele já se consegue tratar valores desconhecidos, para isso basta adicionar “?”, e, dessa forma, o algoritmo “entende” de que se trata de valores desconhecidos, não sendo, no entanto, inclusos tais valores, nos cálculos de ganho.

No algoritmo C4.5 é utilizado a medida de razão de ganho, conforme a Fórmula 3, para melhor selecionar os atributos que dividem os exemplos, permitindo, assim, o retorno de árvores mais precisas e menos complexas.

Fórmula 3: Razão de ganho.

𝑅𝑎𝑧ã𝑜 𝑑𝑒 𝑔𝑎𝑛ℎ𝑜(𝑛ó) = 𝑔𝑎𝑛ℎ𝑜 𝑒𝑛𝑡𝑟𝑜𝑝𝑖𝑎(𝑛ó)

Fonte: ZUBEN; ATTUX, 2010, p. 22.

Para melhor entendimento das fórmulas e conceitos sobre árvore de decisão foram selecionadas de forma aleatória 10 (dez) instâncias para os atributos da Figura 1, conforme apresentado na Figura 2:

Figura 2: Microdado do ENADE 2011 com três atributos e dez instâncias, criado na plataforma Weka.

Fonte: AUTOR, 2017.

Os atributos utilizados na Figura 2 foram nt_ger = {A, B, C, D, E}, co_rs_s5 = {A, B, C, D, E, F, G, H} e co_rs_s13 = {A, B, C, D, E, F}, sendo o atributo em destaque “nt_ger” como classe principal.

(25)

Figura 3: Análise do atributo co_rs_s5 como melhor atributo.

Fonte: AUTOR, 2017.

Figura 4: Análise do atributo co_rs_s13 como melhor atributo.

Fonte: AUTOR, 2017.

Primeiramente, para construir a árvore é necessário definir o melhor atributo para o nó raiz. Para isso, se verifica a ocorrência de suas variáveis em cada atributo de forma individual, conforme as Figuras 3 e 4 em que são analisadas as relações de cada elemento dos atributos “co_rs_s5” e “co_rs_13” com o “atributo-alvo” “nt_ger”. Desta forma, é realizado o cálculo da Entropia e Ganho para cada atributo como apresentado na Figura 5. O atributo “co_rs_s13” é mais indicado para nó raiz com ganho 0,6344, sendo superior ao atributo “co_rs_s5”. Assim, a árvore de decisões será construída a partir do nó raiz “co_rs_s13” e será calculada sua razão de ganho de acordo com a Fórmula 3: 0,4953 / 1,3707 = 0,3613.

(26)

Figura 5: Cálculos de entropia e ganho dos atributos co_rs_s5 e co_rs_s13.

Equações Substituição na equação

Atributo co_rs_s5 Entropia 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎(𝑆) = −0/10 log

20/10 − 2/10 log22/10 − 6/10 log26/10

− 2/10 log22/10 − 0/10 log20/10 = 𝟏, 𝟑𝟕𝟎𝟕

Ganho Ganho(S, co_rs_s5) = 1,3707 – (3/10)*0,9181 – (2/10)*1 – (2/10)*1 – (2/10)*1 = 0,4953

Atributo co_rs_s13

Entropia 𝐸𝑛𝑡𝑟𝑜𝑝𝑖𝑎(𝑆) = −0/10 log20/10 − 1/10 log21/10 − 6/10 log26/10 − 2/10 log22/10 − 0/10 log20/10 = 𝟏, 𝟐𝟑𝟖𝟓

Ganho Ganho(S, co_rs_s13) = 1,2385 − (7/10) ∗ 0,8629 = 𝟎, 𝟔𝟑𝟒𝟒

Fonte: AUTOR, 2017.

3.2 Florestas aleatórias

O algoritmo de floresta aleatória (Random Forest) foi desenvolvido em 2001 por Leo Breiman do Departamento de Estatística da Califórnia em que descreve acerca das funcionalidades e características do algoritmo (BREIMAN, 2001, p. 5-26). Diferente da árvore de decisão, em que todo o conjunto de dados era utilizado para criação da árvore, no algoritmo de florestas aleatórias, o conjunto de dados é divido de forma aleatória em vários subconjuntos de tamanho menor, sendo criados por uma amostragem específica, com reposição, denominada de bootstrap, ou seja, a cada nova formação de conjuntos poderá ser incluído o mesmo dado novamente, de forma aleatória, ou outros que não foram inclusos anteriormente. (HAN; KAMBER; PEI, 2011, p. 15 apud GIROLAMO NETO, 2014).

A técnica de floresta aleatória consiste em Bagging, Boosting e Randomazing. O

Bagging realiza as reamostragens ou bootstrapping por meio de seleção aleatória com

reposição. Já para o Boosting é definida uma ponderação, baseada nas observações incorretas, que pode ser aumentada quando for criada uma nova árvore. No Randomazing, os subconjuntos são processados aleatoriamente para a execução da divisão (LUCAS, 2011, p. 9). O algoritmo de floresta aleatória, dessa forma, é um conjunto de árvore de decisão, mas com técnicas de seleção aleatória e ponderação, como explica Han, Kamber e Pei (2011, p. 15 apud GIROLAMO NETO, 2014):

(27)

“Quando a floresta está formada, há um número grande de árvores de decisão a serem testadas e todas contribuem para a classificação do objeto em estudo, por meio de um voto sobre qual classe o atributo meta deve pertencer. Cada voto tem um certo ’peso‘, o qual é afetado pela similaridade entre cada árvore, sendo que quanto menor a similaridade entre duas árvores melhor, e pela força que cada árvore tem individualmente, ou seja, quanto mais precisa uma árvore for, melhor será sua nota. O ideal é manter a precisão das árvores sem aumentar sua similaridade“.

3.3 Atributo e método de busca

O atributo avaliador de busca utilizado foi o infoGainAttributeEval, que avalia os atributos baseado no ganho da informação. Ele discretiza atributos numéricos utilizando primeiramente o método de discretização. Ele é utilizado na plataforma weka com o método de pesquisa denominado Ranker que apresenta os ranks9 dos atributos individuais de acordo com sua avaliação.

O Ranker ordena os atributos por sua avaliação individual não apenas classificando os atributos, mas também executa a seleção de atributos removendo os mais baixos. É possível também definir um limiar de corte, sendo os atributos abaixo deste limiar descartados, conforme apresentado por Witten, Frank e Mark (2011, p. 494).

3.4 Qualificação de desempenho

Existem várias formas de qualificação ou análise de desempenho de um modelo. Neste tópico serão apresentadas três dessas medidas, como: matriz de confusão, análise gráfica do tipo ROC (Receiver Operating Characteristics) e o índice de concordância Kappa.

3.4.1 Matriz de confusão

Representa um importante qualificador para mensurar a taxa de acertos e erros recorrentes em problemas relacionados à classificação, o que permite a descrição de desempenho do modelo.

Um classificador, ao analisar um dataset, prediz como positivo ou negativo cada instância pode ser identificada, sendo representada por quatro resultados possíveis distintos: falso positivo (FP), falso negativo (FN), verdadeiro positivo (VP) e verdadeiro negativo (VN), suas classes positivas (C+) e suas classes negativas (C_) conforme o Quadro 1.

9 Ranks representam a ordem decrescente dos atributos que apresentam maior correlação aos que possuem menor

(28)

Quadro 1: Matriz de confusão.

C+ C_ Total

VERDADEIRO C+ C_ VP FP VN FN N P

TOTAL P’ N’ P + N

Fonte: RODRIGUES; OLIVEIRA, 2012, p. 49-53.

O Quadro 1 representa o modelo de uma matriz de confusão em que sua diagonal principal, composta pelos valores de VP e VN, representa os valores esperados, ou seja, revela quando o modelo está correto acerca de suas análises positivas e negativas. Existem também medidas de avaliação que são provenientes da matriz de confusão, conforme Han, Kamber e Pei (2011 apud GIROLAMO NETO, 2014, p. 18): taxa de acerto ou acurácia, taxa de erro, sensitividade e especificidade.

A taxa de acerto representa a porcentagem de acertos classificada corretamente, conforme indicada na Figura 6 (1). A taxa de erros, por outro lado, representa a porcentagem de erros ou o complemento da taxa de acerto (1-Taxa de acerto) indicada pela Figura 6 (2).

A sensitividade avalia a precisão de verdadeiros positivos, enquanto que a especificidade avalia a de verdadeiros negativos, conforme as Figuras 6 (3) e (4).

Figura 6: Conjunto de fórmulas de avaliação.

𝑇𝑎𝑥𝑎 𝑑𝑒 𝑎𝑐𝑒𝑟𝑡𝑜 =𝑉𝑃 + 𝑉𝑁 𝑃 + 𝑁 (1) 𝑇𝑎𝑥𝑎 𝑑𝑒 𝑒𝑟𝑟𝑜 =𝐹𝑃 + 𝐹𝑁 𝑃 + 𝑁 (2) 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑑𝑎𝑑𝑒 =𝑉𝑃 𝑃 (3) 𝐸𝑠𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑑𝑎𝑑𝑒 =𝑉𝑁 𝑁 (4)

(29)

3.4.2 Gráfico ROC

As curvas ROC (Receiver Operating Characteristic) são ferramentas gráficas para análise de desempenho de algoritmos de aprendizagem. Essas curvas são criadas utilizando a matriz de confusão como base para análise probabilística conjunta e condicional da amostra. A probabilidade conjunta é obtida pela divisão entre cada entrada da matriz de confusão e o tamanho da amostra, já a probabilidade condicional é obtida particionando as probabilidades conjuntas e calculando suas probabilidades condicionais, conforme Fórmula 4, sendo estas utilizadas para maior refinamento da análise.

Fórmula 4: Probabilidade condicional.

P(X, Y) = 𝑃(𝑋/𝑌). 𝑃(𝑌) = 𝑃(𝑌/𝑋). 𝑃(𝑋)

Fonte: PRATI; BATISTA; MONARD, 2008, p. 2.

A Fórmula 4 apresenta a probabilidade condicional ou confiança, na qual P(X,Y) é a probabilidade condicional de X ser verdadeira, dado que Y é verdadeira. A fatoração de P(X,Y) em P(X/Y) e P(Y) é vantajoso, segundo Prati, Batista e Monard (2008, p. 2), devido P(X/Y) ser condicionado ao valor de Y, ou seja, é condicionado a proporção de exemplos das classes.

O gráfico ROC é uma forma de representação importante para visualização de modelos. Como Prati, Batista e Monard (2008, p. 2) explicam, esses gráficos são baseados nas taxas de verdadeiros positivos ( 𝑇𝑃𝑅 = 𝑃(𝑌/𝑋) ) e falsos positivos (𝐹𝑃𝑅 = 𝑃(𝑌/𝑋̅) ) que devem, respectivamente, serem plotados no eixo das ordenadas e abscissas, sendo a coordenada (0,0) nunca positiva e (100%, 100%) sempre positiva e o ponto (0, 100%) considerado ideal, porquanto suas predições positivas e negativas são verdadeiras e de forma contrária o ponto (100%, 0) faz predições incorretas.

Além disso, Prati, Batista e Monard (2008, p. 2) descrevem que modelos próximos ao canto inferior esquerdo são ditos “conservativos”, devido classificarem apenas se possuírem uma margem alta de segurança, enquanto que modelos próximos ao canto superior direito são considerados “liberais”, por não precisarem de tanta segurança para análise, e, por conta disso, são passíveis e mais propensos a erros, conforme ilustrado na Figura 7 em que o ponto A é mais conservador em relação ao ponto liberal D.

(30)

Figura 7: Modelos de classificação no espaço ROC.

Fonte: PRATI; BATISTA; MONARD, 2008, p. 4.

3.4.3 Índice de concordância Kappa

Uma forma de qualificar o desempenho dos classificadores é utilizando o medidor Kappa em que consiste na dedução ou correlação entre as probabilidades esperadas, chance de determinada correlação ocorrer ao acaso e a probabilidade obtida ou observada ou que realmente ocorreu, conforme representadas nas Fórmulas 5, 6 e 7.

Fórmula 5: Cálculo da probabilidade esperada.

𝑃𝑒 = (𝑉𝑃 + 𝐹𝑁) ∗ (𝑉𝑃 + 𝐹𝑃) + (𝑉𝑁 + 𝐹𝑃) ∗ (𝑉𝑁 + 𝐹𝑁) 𝑛2

Fonte: PRATI; BATISTA; MONARD, 2008, p. 4.

Fórmula 6: Cálculo da probabilidade obtida.

𝑃𝑜 = (𝑉𝑃 + 𝑉𝑁) 𝑛

Fonte: PRATI; BATISTA; MONARD, 2008, p. 4.

Fórmula 7: Cálculo da concordância Kappa.

𝐼𝐾 = (𝑝𝑜 − 𝑝𝑒) (1 − 𝑝𝑒)

(31)

O índice Kappa, conforme representado pelas Fórmulas 5, 6 e 7, utiliza a matriz de confusão para determinação da probabilidade esperada e obtida. Uma vez calculadas, pode ser feita uma das interpretações de desempenho de modelos desenvolvidas por Landis e Koch (1977), conforme descritas no Quadro 2.

Quadro 2: Qualificação de modelos.

Estatística Kappa Qualidade

< 0,00 Péssima 0,00 – 0,20 Ruim 0,21 – 0,40 Razoável 0,41 – 0,60 Boa 0,61 – 0,80 Muito boa 0,81 – 1,00 Excelente

(32)

4 METODOLOGIA CRISP-DM

Para se analisar dados é necessário seguir uma metodologia para Knowledge Discovery, em que se faz a busca das fontes de dados, armazenamento, preparação, análise de padrões e construção de conhecimento (BRAMER, 2016, p. 3). Esse processo é fundamental para a Mineração de Dados ou Data Mining, conforme apresentado na Figura 8.

Figura 8: The Knowledge Discovery Process.

Fonte: BRAMER, 2016, p. 3.

Segundo Elmasri (2005, p. 624 apud MATOS, 2012, p. 4), “Data mining refere-se à garimpagem ou descoberta de novas informações em termos de padrões ou regras oriundas de grandes quantidades de dados”. Como apresentado na Figura 8, os dados podem estar dispostos em diferentes fontes sendo necessário integrá-los e depois armazená-los. Depois disso, parte desses dados é selecionada e pré-processada em formato padronizado e preparada para ser minerada e, assim, construídos padrões que serão interpretados e assimilados para gerar conhecimento e resolver um determinado problema.

As aplicações de Data Mining são diversas, tais como: análise de imagens de satélite e de componentes orgânicos, detecção de fraude em cartão de crédito, predição de carregamento eletrônico, diagnósticos médicos, sumarização de textos, como indica Bramer (2016, p. 3).

As ferramentas de Data Mining são também as mais variadas possíveis, como apresenta Camilo e Silva (2009, p.21-22): Clementine, SaS Enterprise Miner Suite, SaS Text Miner,

Weka, Oracle Data Mining (ODM), KXEN Analytic Framework, IBM Intelligent Miner, Pimiento, MDR, LingPipe, KNIME.

(33)

No entanto, para este trabalho, optou-se em utilizar a ferramenta Weka por ser um ambiente simples, com um elevado potencial computacional e com variada quantidade de recursos.

Além disso, para melhor identificar os processos de análise de dados e construção de conhecimento (knowledge), optou-se por utilizar o framework Cross-Industry Standard

Process for Data Mining – CRISP-DM 1.0, devido apresentar uma metodologia prática e

funcional de mineração de dados.

O modelo CRISP-DM foi criado por um grupo de Data Miners de algumas das 200 mais populares organizações as quais compartilham do modelo, haja vista que possui um padrão aberto e livre em que qualquer pessoa pode utilizá-lo, como ressalta Brown (2014, p. 73). Ele foi desenvolvido em seis fases, conforme descrito e analisado por Chapman et al. (1999 apud NEVES, 2003, p. 22-27):

1) Entendimento do negócio (business understanding) 2) Entendimento dos dados (data understanding) 3) Preparação dos dados (data preparation) 4) Modelagem (Modeling)

5) Avaliação (Evaluation)

6) Disponibilização (Deployment)

Nesse sentido, ainda considerando Chapman et al. (1999 apud NEVES, 2003, p. 22-27), a fase do entendimento do negócio refere-se à determinação dos objetivos do negócio, recursos disponíveis para analisar a viabilidade do problema e sua detecção e análises, considerando os modelos de mineração de dados para escolha de qual grupo de mineração de dados (classificação, clustering etc.) é mais recomendado para trabalhar.

Já na fase de entendimento dos dados, eles são analisados quanto a sua relevância e quais técnicas se encaixam aos dados coletados, buscando responder os problemas definidos na fase anterior. Nessa fase, busca-se fazer uma descrição dos dados quanto ao número de instâncias, estatísticas de atributos, relevância e grau de correlação entre os atributos e o objetivo do modelo de negócios, formular hipóteses e verificar a qualidade dos dados e seus atributos ausentes.

Depois de conhecer os dados, deve-se prepará-los para um formato adequando ao modelo de negócios para submetê-lo a mineração de dados. É na fase de preparação de dados que ocorre a seleção, limpeza, construção, integração e formatação dos dados.

(34)

Na fase de modelagem, é definida a técnica e construção de modelos, ocorre testes e são feitas análises da acurácia dos modelos propostos. Nas fases de avaliação e disponibilização são avaliados os resultados, revisados os processos e produzido um relatório final dos resultados e processos.

Com isso, se observa no modelo CRISP-DM uma metodologia prática de desenvolver e analisar problemas de mineração de dados de forma iterativa e de alta performance conforme apresentado na Figura 9.

Figura 9: Fases do modelo CRISP-DM.

Fonte: CHAPMAN et al., 1999 apud NEVES, 2003, p. 22.

4.1 Entendimento do negócio

Nesta etapa inicial, são determinados os objetivos do negócio, avaliada a situação da pesquisa, estabelecidos os objetivos para utilização de técnicas de Data Mining e produzido um plano para o projeto, conforme o manual CRISP-DM 1.0, escrito por Chapman et al. (1999, p. 17-19). Além disso, o referido manual define algumas etapas para o entendimento do negócio:

a) Identificação do modelo de negócio b) Avaliação da situação

(35)

d) Produção de um plano de projeto

Na etapa de identificação do modelo de negócio são definidos o contexto do projeto, seus objetivos e critérios para o sucesso do negócio. Já na avaliação da situação, é realizada uma análise mais detalhada sobre o fato descoberto, verificando fatores que serão definitivos ou importantes para o plano do projeto, além de análises de custo benefício para verificar o potencial do projeto.

Depois disso, são definidos os objetivos para uso de data mining no intuito de construir estados do projeto, como: criação de temas ou hipóteses para serem explorados com as ferramentas de mineração de dados.

Por fim, na etapa de produção de um plano de projeto são descritas as especificidades, passos, ferramentas e técnicas a serem exploradas conforme apresentado na Figura 10.

Figura 10: Fase de entendimento do negócio (Business understanding).

(36)

4.2 Entendimento dos dados

Na fase de entendimento dos dados, são realizadas as etapas a seguir, conforme o manual CRISP-DM 1.0 escrito por Chapman et al. (1999):

a) Coleta inicial dos dados b) Descrição dos dados c) Exploração dos dados

d) Verificação da qualidade dos dados

Esta etapa permite maior entedimento e detalhamento sobre os dados que serão analisados e transformados em conhecimento. Na coleta inicial dos dados, eles são carregados e verificados sua compatibilidade de leitura com as ferramentas que serão utilizadas para a análise de dados, além de listar os datasets adquiridos, locais de suas disponibilidades e registro de problemas encontrados.

Após a coleta, os dados são descritos. O detalhamento dos dados é apresentado quanto ao formato, quantidade de dados, suas instâncias, labels ou colunas e é verificado se tais dados satisfazem os requisitos do projeto.

Na etapa de exploração dos dados, eles são analisados, conforme as hipóteses e os objetivos estabelecidos na fase de entendimento do negócio, selecionados, visualizados e é gerado um relatório técnico para uma visão preliminar sobre estes dados. Nesta fase, são adquiridas familiaridades com os dados, sinalização da sua qualidade e definição de um estágio para a preparação dos dados, conforme declara Brown (2014, p. 81).

Na última parte, é verificada a qualidade dos dados procurando pela quantidade de erros, como esses erros são representados, listando os resultados obtidos, os problemas encontrados e suas possíveis soluções. As etapas do entendimento dos dados estão apresentadas na Figura 11.

(37)

Figura 11: Fase de entendimento do dado (Data understanding).

Fonte: CHAPMAN et al., 1999, p. 19.

4.3 Preparação dos dados

A preparação dos dados visa o tratamento, a limpeza e os cuidados com os dados para seu refinamento e, posterior, modelagem. O guia CRISP-DM decompõe esta fase da seguinte forma:

a) Seleção dos dados b) Limpeza dos dados c) Construção dos dados d) Integração dos dados e) Formatação dos dados

A etapa de seleção decidir decide quais dados são importantes para o projeto, definindo critérios baseados na sua relevância, considerando objetivos, qualidade dos dados, formatos e tipos de seus atributos e instâncias, sendo importante relacionar os dados incluídos e excluídos da análise para justificar tal decisão.

(38)

Depois de selecionados, os dados sofrem limpeza para melhorar sua qualidade e refinamento. Busca-se retirar dados duplicados ou ausentes (missing data). Em seguida, é realizada a integração dos dados que consiste em agregar, criar novo campo e depois gerar um relatório com os atributos derivados ou criados. Além disso, os dados são integrados para obter um dataset pronto para a modelagem.

Outra etapa importante é a formatação dos dados que se adequa a ferramenta que o data

miner escolherá, como exemplo: a ferramenta Weka que será utilizada neste trabalho e que faz

uso do formato de dados Attribute-Relation File Format (ARFF). Esta fase está descrita na Figura 12.

Figura 12: Fase de preparação do dado (Data Preparation).

Fonte: CHAPMAN et al., 1999, p. 22.

4.4 Modelagem dos dados

Nesta fase, são escolhidas técnicas e modelos de dados, definindo padrões para construção do conhecimento (knowledge). As etapas de modelagem são:

(39)

b) Geração do design de teste c) Modelo de build

d) Avaliação do modelo

A etapa de seleção da técnica de modelagem define os algoritmos de mineração de dados que serão utilizados. Na de geração do design de teste são gerados os procedimentos e mecanismos de qualidade e validade do modelo, sendo uma abordagem frequente a separação entre datasets para treino e para testes, o que permite estimar melhor a qualidade do modelo.

Para o modelo de build é executada a ferramenta e ajustados os parâmetros, conforme o modelo empregado, para depois gerar uma descrição do resultado encontrado. E na avaliação do modelo, são analisados os resultados obtidos no decorrer do projeto. A fase de modelagem é descrita na Figura 13.

Figura 13: Fase de modelagem (Modeling).

Fonte: CHAPMAN et al., 1999, p. 25.

4.5 Avaliação e Disponibilização

Na fase de avaliação são analisados os resultados, revistos os processos e determinados os próximos passos no projeto. Na fase de disponibilização, por outro lado, é planejada a viabilização dos resultados, realizado um plano de monitoramento e de manutenção dos

(40)

mesmos e são feitos relatórios e revisões finais dos resultados. As duas etapas são apresentadas nas Figuras 14 e 15.

Figura 14: Fase de avaliação (Evaluation).

Fonte: CHAPMAN et al., 1999, p. 28.

Figura 15: Fase de disponibilização (Deployment).

(41)

5 ANÁLISE DE DADOS DO ENADE

Para a análise de dados do ENADE, conforme a metodologia CRISP-DM (CHAPMAN et al., 1999), a identificação do modelo de negócio ou problema-alvo se fundamenta na tentativa de responder: quais as principais causas ou atributos que influenciam no desempenho dos alunos do TADS, ”Efeito escola” ou Background?

Foram utilizados, para isso, os microdados dos anos de 2008, 2011 e 2014, únicos anos em que foram realizadas as avaliações dos cursos de TADS, e neles estão descritas as variáveis da IES, dos cursos, dos inscritos, de presença, variáveis da prova, questionário de percepção da prova e questionário socioeconômico.

Com o objetivo de entendimento dos dados, o INEP disponibiliza um dicionário de microdados que contêm as variáveis da IES, na qual apresentam os códigos de categoria das universidades, ou seja, se a instituição de ensino superior é pública ou privada e qual sua classificação, como: universidade, centro universitário ou faculdade. Já, nas variáveis de presença, possuem vários tipos ou modos de participação dos inscritos para cada tipo de avaliação. Nas variáveis da prova, por outro lado, estão contidos os gabaritos de suas questões objetivas.

No entanto, são nas variáveis de desempenho da prova e questionário socioeconômico que os alunos participam ora opinando sobre a prova, ora preenchendo sobre sua situação socioeconômica.

Desses microdados, para possibilitar dados confiáveis para seu pré-processamento e no intuito de analisar quais fatores são mais relevantes ao desempenho do estudante do curso de TADS, optou-se por trabalhar com 12 (doze) atributos do questionário socioeconômico e um atributo da variável de desempenho da prova (nota geral bruta ou variável “nt_ger”), devido seis atributos do questionário socioeconômico corresponderem ao Background e seis ao “Efeito Escola”10

.

Além disso, para trabalhar com dados limpos, foram realizadas várias filtragens, tais como: a seleção da variável de curso “co_grupo”= 72, que elegeu apenas os alunos de TADS, e a variável de presença “tp_pres” = 555, que se restringiu apenas aos alunos que participaram da prova. Além disso, a nota geral foi discretizada, ou seja, ao invés de valores decimais ou numéricos, foi dividida em faixa de notas, no intuito de possibilitar melhor análise:

(42)

1) A = Péssimo (nota >= 0 ou <= 20) 2) B = Ruim (nota > 20 ou <= 40) 3) C = Regular (nota > 40 ou <= 60) 4) D = Bom (nota > 60 ou <= 80) 5) E = Excelente (nota > 80 ou <= 100)

Os dados foram preparados, retirando elementos ausentes, e cada prova (2008, 2010 e 2014) foi tratada de forma independente (com atributos semelhantes entre cada ano para evitar distorções nos resultados11).

Os modelos de algoritmos escolhidos para a análise de dados foram o de árvore de decisão (Decision Tree) com seu algoritmo C4.5 ou J48, o de floresta aleatória (Random

Forest) e o algoritmo infoGainAttributeEval e seu método de buscas denominado Ranker, os

quais permitiram resultados mais compreensivos do problema.

A ferramenta utilizada foi o Weka, uma ferramenta de software livre de mineração de dados desenvolvida em Java nos termos da GNU General Public License. O Weka permite trabalhar com problemas, envolvendo: classificação, regras de associação, clusters de dados e seleção de atributos.

O Weka também permite a execução de métodos de pré-processamento e pós-processamento, utilizando uma interface interativa e multiplataforma, testada nos sistemas operacionais Linux, Windows e Macintosh conforme Witten, Frank e Mark (2011, p. 403). Apresenta ainda um formato padrão para estruturar as bases de dados, denominada ARFF que representa um arquivo de texto American Standard Code for Information Interchange (ASCII), no qual descreve um conjunto de instâncias que partilham de uma coleção de atributos.

5.1 ENADE de 2008

O ENADE 2008 possui 198 atributos ou colunas e 461.777 instâncias. Para a análise de dados, foram utilizadas 267.609 instâncias, devido considerar apenas os estudantes que realizaram a prova e responderam todas as questões da prova e as perguntas do questionário escolhidas para análise, no intuito de evitar dados ausentes e resultados insuficientes. Na Figura 16, segue a distribuição da nota entre os 267.609 participantes da amostra, para cada atributo, tendo como atributo classe (“atributo-alvo”) a nota bruta da prova (“nt_ger”). Além

(43)

disso, neste ano do ENADE, os estudantes que realizaram o exame estavam em momentos diferentes de sua graduação: um grupo de ingressante estava no final do primeiro ano do curso; e outro, considerado concluinte, se encontrava no final do último ano do curso, conforme INEP (2008, p. 6).

Essa diferença de participantes no exame impactou de forma significativa na amostra de 2008 em relação aos anos de 2010 e 2014 que consideraram apenas os participantes concluintes para realização das provas. Esse impacto esteve presente nos resultados dos algoritmos, pois a análise dos dados comparou a nota geral bruta dos candidatos e os atributos do questionário socioeconômico, o que inviabilizou uma compreensão ou abordagem sobre “Efeito Escola” e Background, haja vista que os alunos entrantes ou “calouros” não obtiveram a experiência acadêmica necessária para o “Efeito Escola” atuar sobre eles, devido ao pouco tempo na instituição.

Figura 16: Distribuição de nota para cada atributo, metadados de 2008, gerado na plataforma Weka.

Fonte: AUTOR, 2017.

A B C D E A B C D E A B C D E A B C D

A B C D E A B C D E A B C D E A B C D E

A B C D E A B C D E A B C D E A B C D E

(44)

Por meio do atributo infoGainAttributeEval e o método de busca Ranker foi determinado quais dos 12 atributos, selecionados previamente, teriam uma correlação maior com o “atributo-alvo” ou “atributo principal” ou “nt_ger”, ou seja, foram comparadas as questões selecionadas do questionário com o “atributo alvo”, conforme o Quadro 3. Neste

ranking, destaca-se o atributo“Efeito Escola” como sendo o de maior impacto no desempenho

dos alunos, devido o classificador Ranker apontar sua maior correlação se comparada com o

Background:

Quadro 3: Ranking de atributos, metadados de 2008.

Ranking de atributos (Ranked attributes)

Classificação Atributo Descrição Tipo de atributo

0.007933 QE_I52 Equipamentos de laboratório “Efeito Escola”

0.00636 QE_I54 Acervo da Biblioteca “Efeito Escola”

0.003292 QE_I79 Procedimentos de ensino “Efeito Escola”

0.00273 QE_I49 Espaço pedagógico adequado “Efeito Escola”

0.002638 QE_I7 Renda familiar Background

0.002319 QE_I17 Tipo de escola cursou ensino médio Background

0.001868 QE_I13 Escolaridade do pai Background

0.0018 QE_I48 Instalações físicas da instituição “Efeito Escola”

0.001647 QE_I9 Situação de trabalho Background

0.001625 QE_I14 Escolaridade da mãe Background

0.00088 QE_I47 Número de estudante por turma “Efeito Escola”

0.000675 QE_I12 Políticas afirmativas Background

Fonte: AUTOR, 2017.

Além disso, foram testados dois modelos de treinamento: árvore de decisão e floresta aleatória, sendo que o segundo modelo não funcionou nos testes, dado o tamanho dos dados, pois a ferramenta Weka não suportou processá-los. O primeiro modelo foi utilizado o algoritmo C4.5 ou J48 no intuito de analisar como a combinação desses atributos influenciam no desempenho do aluno do Curso de TADS. Nesse sentido, foi aplicado o fator de confiança

(45)

igual a 1 (tal parâmetro determina o tamanho da árvore, ou seja, quanto menor o fator maior a poda12 e, consequentemente, menor a árvore).

Esse fator de confiança gerou um número de folhas de 108.016 com uma acurácia ou precisão média entre as cinco faixas de notas dos alunos de 0,9216 e 69,8601% de instâncias classificadas de forma correta contra 30,1399% incorretas, o que significa que, por meio dos 12 atributos dos testes, descritos no Apêndice, é possível predizer, por exemplo, com uma certeza de aproximadamente de 69,8%, se o aproveitamento do candidato possuirá bom desempenho (nota = D), conforme apresentado no Quadro 4. O índice Kappa representou 0,4929, considerado boa coesão de dados para o modelo e a área de ROC representou 0,6777, conforme a Figura 18. Os índices Kappa e a área ROC utilizaram como base a matriz de confusão da Figura 17.

Figura 17: Matriz de confusão, gerada no Weka.

Fonte: AUTOR, 2017.

Figura 18: Curva ROC para nota D da prova de 2008, gerada no Weka.

Fonte: AUTOR, 2017.

12 Na construção de árvores de decisão, muitas sub-árvores podem apresentar ruídos dificultando a generalização

na aprendizagem. Em virtude disso, para evitar esses ruídos, uma técnica utilizada é excluir sub-árvores utilizando métodos de poda (pruning) da árvore, cujo objetivo é melhorar a taxa de acerto do modelo para novos exemplos (ZUBEN e ATTUX, 2010, p. 3).

(46)

Quadro 4: Métricas de desempenho.

Métricas de Desempenho

Árvore de Decisões Floresta Aleatória

Acurácia média de notas

0,9216 Tamanho de arquivo não

suportado para a ferramenta

weka

%Instâncias corretas 69,8601%

Fonte: AUTOR, 2017.

5.2 ENADE de 2011

O ENADE 2011 possui um metadados de 127 colunas e 376.181 linhas. Para o estudo foram utilizados 13 atributos e 7.014 instâncias que correspondem a dados limpos, sem dados ausentes, sendo todas as perguntas do questionário devidamente respondidas. Na Figura 19, estão descritas, em formato de gráfico de colunas, as distribuições de cada atributo em função da classe ou atributo-alvo: “nt_ger”.

Figura 19: Distribuição de nota para cada atributo, metadados de 2011, gerado na plataforma Weka.

Fonte:AUTOR, 2017. A B C D E A B C D E F G H A B C D E A B C D E F A B C D E F A B C D E F A B C D E A B C D A B C D A B C D A B C D A B C D A B C D

(47)

Por meio do atributo avaliador infoGainAttributeEval e o método de busca Ranker gerou-se o resultado apresentado no Quadro 5.

Quadro 5: Ranking de atributos, metadados de 2011.

Ranking de atributos (Ranked attributes)

Classificação Atributo Descrição Tipo de atributo

0.00984 co_rs_s5 = QE_I5

Renda familiar Background

0.00865 co_rs_s13 = QE_I13

Escolaridade do pai Background

0.00846 co_rs_s17 = QE_I17

Escola cursada no ensino médio Background

0.00653 co_rs_s12 = QE_I12

Ingresso na graduação por políticas afirmativas

Background

0.00527 co_rs_s14 = QE_I14

Escolaridade da mãe Background

0.00242 co_rs_s22 = QE_I22

Infraestutura da Instituição “Efeito Escola”

0.00213 co_rs_s6 = QE_I6

Situação de trabalho do aluno Background

0.00208 co_rs_s24 = QE_I24 Qualidade de equipamentos da Instituição “Efeito Escola” 0.00181 co_rs_s31 = QE_I31

Acervo da biblioteca “Efeito Escola”

0.0018 co_rs_s35 = QE_I35

Didática dos professores adequados ao plano do curso

“Efeito Escola” 0.00145 co_rs_s26 = QE_I26 Utilização de equipamentos do laboratório no curso “Efeito Escola” 0.00101 co_rs_s23 = QE_I23

Sala de aula adequada à quantidade de estudantes

“Efeito Escola”

Referências

Documentos relacionados

III - ser ou ter sido sócio ou diretor de ETC ou CTC. Para fins de cumprimento do requisito de tempo de atividade profissional, poderá ser utilizada qualquer combinação dos

Os resultados obtidos com este estudo mostram que a incorporação da perspetiva CTSA nos manuais escolares estudados não está ainda completamente conseguida, pois nem sempre, quer

As medições estão relacionadas à massa das peles; ao volume do banho de cada etapa do processo; aos valores de pH; verificações de difusão dos produtos no interior das peles e

O uso de dispositivos invasivos como cateter venoso central (CVC), que causa o rompimento da barreira cutânea, e tubo endotraqueal (TET), que favorece a contaminação da mucosa

O entendimento desta Corte Superior é no sentido de que os benefícios da Justiça Gratuita somente são deferidos ao Sindicato, na condição de pessoa jurídica, caso demonstrada

Com o devido respeito pelos fundamentos invocados nas razões recursais, as peculiaridades do caso em comento recomendam que seja mantida a decisão prolatada pelo

2 – Não sendo proprietário, mas residente na habitação e após vistoria ao imóvel que comprove necessidade de obras de conservação, necessárias à correcção de más condições

Tudo visto e devidamente analisado, o Conselho de Administração deliberou homo logar a informação prestada, aprovar o convite e caderno de encargos, bem como aprovar o procedimento