• Nenhum resultado encontrado

Visualização dos resultados das edições de 2010 a 2015 do ENEM através de um Shiny App

N/A
N/A
Protected

Academic year: 2021

Share "Visualização dos resultados das edições de 2010 a 2015 do ENEM através de um Shiny App"

Copied!
44
0
0

Texto

(1)

Universidade Federal do Rio Grande do Norte

Centro de Ciências Exatas e da Terra

Departamento de Estatística

Curso de Estatística

Marylaine Pereira do Nascimento

Visualização dos resultados das edições de 2010

a 2015 do ENEM através de um Shiny App

Natal - RN

(2)

Universidade Federal do Rio Grande do Norte

Centro de Ciências Exatas e da Terra

Departamento de Estatística

Curso de Estatística

Marylaine Pereira do Nascimento

Visualização dos resultados das edições de 2010 a 2015

do ENEM através de um Shiny App

Monografia de Graduação apresentada ao De-partamento de Estatística do Centro de Ci-ências Exatas e da Terra da Universidade Federal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau de Bacharel em Estatística.

Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra

Departamento de Estatística

Orientador: Prof. Dr. Marcus Alexandre Nunes

Natal - RN

(3)

Nascimento, Marylaine Pereira do.

Visualização dos resultados das edições de 2010 a 2015 do ENEM através de um shiny app / Marylaine Pereira do Nascimento. - 2017.

43 f.: il.

Monografia (Bacharelado em Estatística) - Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Departamento de Estatística. Natal, RN, 2017.

Orientador: Marcus Alexandre Nunes.

1. Estatística Monografia. 2. Microdados do ENEM Monografia. 3. Shiny Monografia. 4. Visualização de dados -Monografia. 5. ggplot2 - -Monografia. 6. Big Data - -Monografia. I. Nunes, Marcus Alexandre. II. Título.

RN/UF/CCET CDU 519.2 Universidade Federal do Rio Grande do Norte - UFRN

Sistema de Bibliotecas - SISBI

(4)
(5)
(6)

Agradecimentos

A Universidade Federal do Rio Grande do Norte, por sua infraestrutura, organização e seu corpo docente sempre dedicado. Ao técnico Cícero França e toda a equipe de redes da SINFO, por terem disponibilizados uma máquina virtual no data center da UFRN, para que eu pudesse hospedar gratuitamente o aplicativo desenvolvido. Agradeço também a Universidade Federal Fluminense, onde ingressei no Ensino Superior, agradeço à Infraestrutura, ao bandejão de 70 centavos e pelo corpo docente que me ensinou a base do curso de estatística nos quatro semestres cursados.

Agradeço as professoras Carla Vivacqua e Ivone Salsa por aceitarem o convite para compor a banca. A Marcus, o melhor orientador que eu poderia ter, pela ideia incrível deste trabalho, por toda ajuda prestada, pela compreensão, disposição, pela amizade e por me emprestar suas esferas magnéticas.

Com muito carinho agradeço aos meus pais, Elmo e Marília, pelo amor e todo esforço investido em prol da minha educação, por acreditarem em mim e nas minhas decisões, por todo incentivo e apoio necessário. Aos meus irmãos, Lucas e Nadja, pela amizade e compreensão.

Meus agradecimentos a Bia, Bruno e Waldemar, pela amizade tão necessária, toda força, apoio e compreensão; e, a todos os demais amigos e colegas que ganhei nesta jornada, tanto em solo fluminense quanto em solo potiguar, muito obrigada por fazerem das universidades por onde andei, lugares agradáveis e acolhedores, além de compartilhar comigo seus conhecimentos e dores.

Por fim, agradeço a todos que, de alguma forma, contribuíram para minha formação, assim como aos que mostraram interesse neste trabalho e deixaram sua contribuição.

(7)

“A falha é uma opção aqui. Se as coisas não estão falhando, você não está inovando o suficiente.” Elon Musk

(8)

Resumo

Criado em 1998 com objetivo de avaliar o desempenho dos concluintes do Ensino Médio, o Exame Nacional do Ensino Médio - ENEM, é hoje o principal exame de acesso ao Ensino Superior no Brasil, sendo responsável por 100% das vagas em universidades federais. Devido à relevância do ENEM, é importante estudar alguns resultados observados nas realizações desse exame e entender o desempenho de variados grupos de pessoas, questionando-nos quais fatores parecem contribuir para um bom desempenho do candidato. Essa é a intenção deste trabalho, incentivar o pensamento crítico sobre alguns resultados do ENEM através de uma ferramenta prática e ágil que dê visibilidade gráfica e resumida desses resultados. Esses resultados, apesar de disponíveis online, não são simples de serem observados. Um volume muito grande de dados exigiu uma limpeza e pré-processamento para que pudéssemos trabalhar com os mesmos. O resultado do nosso trabalho, nesta monografia, gerou um aplicativo interativo online, acessível inclusive a leigos em Estatística, para que os interessados possam explorar os dados como desejarem tirando suas próprias conclusões. Nosso aplicativo contém censo das notas das edições do ENEM de 2010 a 2015 em seis grupos e dois tipos de gráfico. Os resultados apresentados são as notas em cada área de conhecimento, juntamente com a redação e a média aritmética das cinco notas. O referido aplicativo foi criado utilizando o pacote shiny da linguagem R. A apresentação dos gráficos foi feita utilizando-se o pacote ggplot2, que constrói gráficos esteticamente mais agradáveis. O aplicativo pode ser encontrado em <http://shiny.estatistica.ccet.ufrn.br/enem>.

Palavras-chave: Microdados do ENEM. shiny. Visualização de dados. ggplot2. Big

(9)

Abstract

Created in 1998 aiming to evaluate the performance of High School graduates, the Exame Nacional do Ensino Médio - ENEM, is the main access exam to Higher Education in Brazil today, being responsible for 100% of the admisions in federal universities. Due to the relevance of ENEM, it is important to study some observed results in the exam realizations and understand the performance of differente groups of people, to question ourselves about which factors seem contributing to a good performance of the candidate. This is the intention of this work, to motivate the critical thinking about the results of ENEM through a pratical and agile application that gives graphic and summarized visualization of the results. This results, although avaliable online, are not simple to be observed. A very large volume of data required a cleaning and pre-processing so we can work with the data. The result from our study, in this monography, created an interactive online application, accessible including to lay people in Statistics, so interested people can explore the data as they wish drawing their own conclusions. Our application contains the grades of ENEM from years 2010 to 2015 in six groups and two plot types. The present results are the grades in each knowledge area together with the essay and an arithmetic mean of the five notes. The application was created using the shiny package of the R language. The presentation of the graphics was made using the package ggplot2, which builds aesthetically pleasing graphics. The application can be found at <http://shiny.estatistica.ccet.ufrn.br/enem>.

(10)

Lista de ilustrações

Figura 1.1 – Linha do Tempo do ENEM. . . 13

Figura 1.2 – Número de Inscritos no ENEM por Ano (Milhões). . . 13

Figura 3.1 – Estrutura do Boxplot. . . 22

Figura 3.2 – Estrutura do Histograma. . . 24

Figura 3.3 – Criação de Gráfico no ggplot2. . . 27

Figura 4.1 – Página inicial do aplicativo. . . 33

Figura 4.2 – Aba: Tabelas Resumo. . . 34

Figura 4.3 – Aba: Como interpretar. . . 34

Figura 4.4 – Aba: Como Interpretar - Histograma. . . 34

Figura 4.5 – Aba: Como Interpretar - Boxplot. . . 35

Figura 4.6 – Aba: Sobre. . . 35

Figura 4.7 – Gráficos para média no ENEM 2011 - Brasil. . . 36

Figura 4.8 – Gráficos para média no ENEM 2011 por sexo. . . 37

Figura 4.9 – Gráficos para média no ENEM 2011 por região. . . 37

Figura 4.10–Gráficos para média no ENEM 2011 por sexo e região. . . 38

Figura 4.11–Gráficos para média no ENEM 2011 por renda. . . 38

(11)

Lista de tabelas

Tabela 3.1 – Número de Inscritos nas Edições do ENEM de 1998 a 2017. . . 26 Tabela 3.2 – Nomes dos objetos no R. . . 26 Tabela 3.3 – Primeiras linhas no arquivo g15. . . 28 Tabela 3.4 – Redução de linhas no arquivo para gerar o boxplot das médias do ENEM

2015 no Brasil. . . 29 Tabela 3.5 – Redução no tamanho dos arquivos. . . 32

(12)

Sumário

Lista de ilustrações . . . . 9 Lista de tabelas . . . 10 1 INTRODUÇÃO . . . 12 1.1 Objetivos . . . 14 2 REVISÃO BIBLIOGRÁFICA . . . 16 3 METODOLOGIA . . . 19

3.1 Leitura e Pré-processamento dos microdados . . . 19

3.2 Shiny . . . 20

3.3 Visualização dos Dados . . . 21

3.4 ggplot2 . . . 25

3.4.1 Dificuldades encontradas no uso do ggplot2 . . . 27

3.5 Scripts utilizados . . . 31

4 RESULTADOS . . . 33

5 CONSIDERAÇÕES FINAIS . . . 41

5.1 Trabalhos futuros . . . 41

(13)

12

1 Introdução

No dia 22 de outubro de 2011 acordei ansiosa, levantei cedo, fiz um desjejum reforçado e logo já estava revisando fórmulas. Havia chegado o fim de semana para qual eu havia me preparado todo o ano escolar, o fim de semana do ENEM - Exame Nacional do Ensino Médio. Era o meu ano de conclusão no Ensino Médio, e como muitos concluintes tinha aquele sonho de ingressar em uma universidade pública, e foi justo em 2011 que as universidades federais aderiram totalmente (ou em 50% das vagas) ao Sisu - Sistema de Seleção Unificada, que gerencia as vagas em instituições públicas de Ensino superior. Junto comigo, 5,4 milhões de pessoas também se encaminhavam para seus respectivos locais de prova. Anualmente temos milhões de pessoas realizando o ENEM, o segundo maior vestibular do mundo, perdendo apenas para o gaokao, exame realizado na China (BRASIL, 2015b).

O ENEM foi criado em 1998 com o objetivo de avaliar o desempenho de concluintes do Ensino Médio; sua nota podia substituir ou complementar exames para ingressar em Ensino Pós-Médio, profissionalizante ou Superior. A adesão ao exame não era muito grande e, em seu primeiro ano, 157,2 mil pessoas se inscreveram no ENEM (INEP, 2007). Podemos acompanhar um breve histórico do ENEM através da Figura 1.1 (INEP, 2007; MEC, 2008; MEC, 2009; BRASIL, 2010; MEC, 2011; BRASIL, 2012; BRASIL, 2013; BRASIL, 2014; BRASIL, 2015a; BRASIL, 2016; BRASIL, 2017). Em 2004, a nota do ENEM podia conceder bolsas no ProUni - Programa Universidade para Todos. Apesar da queda de inscritos em relação a 2003, após 2004 o número de inscritos quase que dobrou, conforme vemos na Figura 1.2. No ano de 2006 , a adesão das universidades ao ENEM já era maior, com cerca de 500 universidades fazendo uso do exame. Entretanto, a grande transformação foi em 2009, quando o ENEM foi reformulado. Anteriormente o exame era realizado em um dia e contava com 63 questões interdisciplinares e uma redação e só podia ser realizado uma vez pelo participante. Com a reformulação o exame passou a ser realizado em um final de semana, com 4 grupos de provas. Assim, passou a ser dividido em 4 áreas de conhecimento: ciências da NATUREZA e suas tecnologias, ciências HUMANAS e suas tecnologias, LINGUAGENS e códigos e suas tecnologias e MATEMÁTICA e suas tecnologias. Cada uma das área de conhecimento é composta por 45 questões objetivas, com cinco opções de resposta, em que apenas uma está correta, mais a redação que se enquadra na área de linguagens e códigos e suas tecnologias. A partir de então, a adesão de universidades federais foi aumentando, chegando a totalidade em 2012. A esta altura, o ENEM também fornecia certificados do Ensino Médio para quem obtivesse a nota mínima de 400 pontos na média geral. Entretanto, a obtenção do certificado de conclusão do Ensino Médio através do ENEM não é mais possível desde 2016, quando um exame específico

(14)

Capítulo 1. Introdução 13

Figura 1.1 – Linha do Tempo do ENEM.

Fonte: Autora

Figura 1.2 – Número de Inscritos no ENEM por Ano (Milhões).

Fonte: Autora para emissão do certificado foi criado (BRASIL, 2011).

O Inep - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira, instituição responsável pelo ENEM, tem informações dos inscritos no ENEM desde seu surgimento em 1998, e qualquer um pode ter acesso a esses dados através do site <http: //portal.inep.gov.br/microdados>. Entretanto, não é qualquer um que conseguirá ler tais dados, pois é um banco de dados muito grande, com milhões de inscritos e dezenas de perguntas. Os métodos usualmente utilizados não suportam ler essa quantidade de dados. No fim das contas, muitos estudos optam por utilizar resultados dos relatórios publicados pelo Inep ou fazer uso de amostra. Objetivando apresentar como os principais resultados do ENEM se comportam em alguns grupos de candidatos, faremos uso de uma peça chave daquele curso que escolhi lá em 2012 no Sisu, o curso de Estatística.

A programação computacional é aliada fundamental de um estatístico. Em muitos casos, funções prontas em programas estatísticos podem nos dar os resultados desejados quase que instantaneamente, desde que, em algum momento, alguém tenha programado tal função. Em outros casos, é necessário que programemos nossa própria função para alcançarmos nosso resultado, mas a programação nos é necessária principalmente no

(15)

Capítulo 1. Introdução 14

pré-processamento dos dados.

No pré-processamento de dados fizemos uma filtragem onde só ficaram os dados que, de fato, seriam analisados. O passo seguinte consistiu na análise dos dados em si, seguida da apresentação de resultados e conclusões. Percebemos que a maior parte e também a mais trabalhosa é aquela posterior ao pré-processamento daquela grande massa de dados. Notamos também que foi pensando na análise e nos resultados que queríamos obter que definimos o que deve passar e o que deve ficar no filtro.

Toda essa estrutura de pensamento proveniente de um banco de dados cheio de informações sem tratamento prévio, não nos permitem tirar conclusões, pois o grande número de variáveis nos deixa desfocados diante de tanta variedade. A habilidade de sair de um banco de dados carregado de informações e chegar em uma análise limpa que nos dá resultados e conclusões que nos sejam úteis é o que conceitua Big Data. Segundo Davenport e Dyché (2013), o grande potencial de Big Data não se trata do volume de dados, mas sua variedade, a habilidade de analisar diversas fontes de dados e de diferentes tipos, e ainda, de acordo com Thomas H. Davenport, o principal valor de Big Data é o processamento dos dados brutos, a análise destes e as conclusões que irão ditar tomadas de decisões por novos produtos e serviços.

Os dados de maior interesse em relação ao ENEM são as notas em cada uma das área de conhecimento, na redação isolada e a média geral. Isso porque cada Instituição de Ensino Superior pública vinculada ao Sisu determina pesos para cada área de conhecimento de acordo com o curso e podem ainda definir uma nota miníma para concorrer às vagas que a instituição oferece, assim como faz a UFRN - Universidade Federal do Rio Grande do Norte, onde somente indivíduos com notas a partir de 450 podem se inscrever para tentarem os acessos aos cursos de graduação oferecidos pela UFRN. Infelizmente, o Inep só passou a disponibilizar as notas de cada inscrito, em seus microdados, a partir do ano de 2010.

A apresentação de parâmetros das notas do ENEM de forma interativa, acessível, inclusive, para um público leigo em Estatística, possibilita que pessoas fora do ambiente acadêmico observem esses resultados, interpretando-os por conta própria, formando sua opinião em um cenário favorável ao entendimento do comportamento desses dados.

1.1

Objetivos

Objetivo principal:

• Criar um aplicativo interativo que apresente as médias gerais e as notas por área de conhecimento dos inscritos no ENEM de 2010 a 2015. Esse aplicativo permitirá a apresentação das notas associadas a esse período, através de boxplots e histogramas,

(16)

Capítulo 1. Introdução 15

acompanhados de tabela com alguns parâmetros. Além disso, as notas poderão ser visualizadas separadas por ano, sexo, região, sexo e região e renda, onde as categorias de renda são as mesmas utilizadas pelo INEP;

Objetivos específicos:

• Obter formas de reduzir os dados para gerar os gráficos de forma eficiente e rápida sem perder as informações da população;

(17)

16

2 Revisão Bibliográfica

Estudos sobre edições do ENEM anteriores a 2010 limitam-se a discussões sobre a metodologia proposta, como o artigo de Cavalcante et al. (2006) e a descrição do perfil dos candidatos. Corti (2013) analisou o perfil dos participantes do ENEM nas edições de 1999 a 2007. A pesquisadora observou uma diversificação no público depois de dois eventos: a isenção de taxa em 2001 e a criação do ProUni 2005. O percentual de participantes oriundos de escolas públicas aumentou, assim como o número de participantes com idade superior a 20 anos. Enquanto a distribuição percentual de sexo se manteve próxima, cerca de 60% do público que realiza a prova é feminino, o que condiz com o número de matrículas no ensino médio. A distribuição de raça também mudou. Em 1999, o percentual de brancos era de 76%, enquanto em 2007 passou a ser de 44%. O número de participantes que trabalham e participantes com renda familiar de até 5 salários mínimos também aumentou no decorrer dos anos. Por fim, em 2007, 56% dos participantes iriam ter ou já tinham maior grau de escolaridade que os pais.

A partir da edição de 2010, com a disponibilização das notas dos candidatos pelo Inep, os estudos finalmente têm uma variável resposta para analisar e fazer comparativos de grupos. Uma análise do desempenho no ENEM 2010 por região foi realizada por Viggiano e Mattos (2013). Os resultados apresentados descrevem os candidatos que responderam à prova azul, pois alegam que representam uma amostra significativa. Dentre suas conclusões, temos melhores desempenhos na região Sudeste, Sul, Centro-Oeste, Nordeste e Norte, respectivamente.

Em edições anteriores, o Inep disponibilizava relatórios e rankings de escolas de acordo com as notas dos alunos. Foi através do relatório da edição de 2013 que Silveira, Barbosa e Silva (2015) fizeram seu estudo, comparando os escores das escolas em nível estadual e socioeconômico. Em seus resultados podemos ver o estados de São Paulo, Rio de Janeiro e o Distrito Federal com os três melhores escores escolares, respectivamente, além de maior escore em escolas com maior nível socioeconômico.

Note que, apesar de ter todos os dados disponíveis, os estudos fazem uso de relatórios ou amostra. A mídia não vai muito além, em geral, os números se referem ao número de inscritos, rankings de escolas e número de ausentes. Os principais resultados do ENEM não são de fato trabalhados. Entendemos que a utilização de amostragem deve ser feita quando não podemos obter as informações da população toda Portanto, se temos acesso aos dados da população, o uso de amostra é desnecessário. Em um caso assim, não precisamos fazer inferências. Queremos enxergar a realidade tal e qual acontece e não por meio de estimativas. Além disso, o uso de relatórios prontos nos limita de

(18)

Capítulo 2. Revisão Bibliográfica 17

explorar os dados, inviabiliza uma visão pessoal que possa nos trazer questionamentos. Portanto, a preocupação desse trabalho é de dar visibilidade gráfica e resumida desses dados disponíveis que poucos conseguem ver, quebrar a barreira que uma pessoa interessada encontra assim que realiza o download dos microdados do ENEM, inclusive para aquelas sem conhecimento prévio de estatística e assim, estimular questionamentos, solucionar suposições ou simplesmente atender nossa curiosidade.

A seguir, serão apresentados alguns estudos que visam facilitar a análise de pesqui-sadores em suas respectivas áreas e fazem isso com a criação de uma ferramenta interativa onde o usuário tem o incentivo da praticidade e de ter suas próprias conclusões.

A dissertação de mestrado de Frias (2015) utiliza os microdados do ENEM 2012. Seu objetivo é tornar acessível a diretores, coordenadores e professores os dados dos alunos de suas respectivas escolas através de uma ferramenta que apresente e analise esses dados. O uso da ferramenta visa orientar tomadas de decisões no ambiente escolar. O autor filtra apenas o estado do Rio de Janeiro dos microdados, e com um banco de dados menor consegue fazer todas as manipulações necessárias no Excel. É também no Excel que a ferramenta é desenvolvida. A ferramenta encontra-se disponível no link <https:// drive.google.com/file/d/0ByhpXU8vBCVTOS1MeG4zczVObHM/view?usp=sharing>. O funcionamento da ferramenta necessita que o usuário possua o Excel em seu computador e faça download dos dados no site do Inep, exceto para os usuários fluminenses, que dispõem de um link com os dados previamente filtrados. Tendo Excel e os dados, o usuário insere os dados na ferramenta e ela produzirá todos os gráficos apresentados na dissertação.

Outro exemplo é o estudo de Lynch (2015), onde são investigadas amostras de tumores utilizando toda a sequência do genoma. A investigação pode variar de um modelo para outro, e as ferramentas que realizam essa análise podem ter conflitos em seus resultados. Com a intenção de entender a metodologia de cada ferramenta, visualizar suas respostas e decidir por qual utilizar, Lynch criou uma ferramenta que recebe os dados do usuário e retorna os resultados dos métodos das outras ferramentas, de forma que o usuário pode inferir sobre qual modelo usar dentre as soluções apresentadas. Um problema encontrado aqui foi o tempo para que os gráficos sejam gerados, que pode ser de aproximadamente 20 minutos ou uma hora. A interface é bem simples e não conta com um guia, como se pode ver nesse link <https://dralynch.shinyapps.io/crambled_app>.

Dunning et al. (2017) haviam publicado em 2015 um estudo de coorte de homens com câncer de próstata que precisaram de prostatectomia em quatro regiões, posterior-mente pensaram em compartilhar o banco de dados que obtiveram, mas foram além do compartilhamento. Criaram uma plataforma na web que realiza análises e exporta os gráficos resultantes em formatos PNG e PDF, prontos para apresentação. Para isso, a plataforma utiliza também conjuntos de dados de câncer de próstata humano abertos ao público para aumentar o número de amostras e obter melhores validações das observações

(19)

Capítulo 2. Revisão Bibliográfica 18

provenientes das análises do banco de dados que o usuário inserir. É um trabalho diferenci-ado, incentivador, pois um pesquisador do câncer de próstata não precisará buscar bancos de dados, baixa-los, pré-processá-los para então utilizar, ele já terá tudo isso na plataforma <http://bioinformatics.cruk.cam.ac.uk/apps/camcAPP/> e poderá fazer suas análises de acordo com seus próprios critérios gerando gráficos com design e tamanho de sua preferência. A facilidade é incentivadora e seu diferencial em relação a outras ferramentas da área é que seu foco é específico em câncer de próstata. A interface da ferramenta é carregada, cheia de opções e breves explicações, além de um guia para download.

Outro trabalho interessante é na área de ecologia, onde é comum a análise de populações. As ferramentas existentes para esse fim possuem algumas limitações como entrada de dados, saída de resultados, gráficos de baixa qualidade e outras especificações da área. A ideia de Francis (2017) foi criar uma ferramenta que facilitasse a análise do usuário corrigindo muitas das limitações encontradas em outras ferramentas e pode ser acessada por meio do link <http://pophelper.com/>. Nessa ferramenta, uma limitação é o tamanho do arquivo, mas a interface é limpa e bem organizada, possuindo explicações e guia.

Perceba que as ferramentas citadas são destinadas a um público específico. A primeira, em particular, necessita do Excel, um programa pago, e dentro de seu objetivo fica limitado a visualização dos resultados apenas em ambientes escolares. As demais exigem conhecimento prévio do usuário, pois são assuntos técnicos e não possuem leigos na área como público alvo. Como citado anteriormente, neste trabalho houve a intenção de se realizar um censo de cada edição do ENEM, com os dados referentes ao período de 2010 a 2015, de modo que, esses dados pudessem estar disponíveis por meio de uma visualização sendo de fácil e rápido acesso, e de maneira tal que pessoas fora da área de estatística pudessem usufruir dessas visualizações e conhecer melhor a realidade do ENEM nesse período.

(20)

19

3 Metodologia

Neste Capítulo apresentamos os procedimentos realizados no pré-processamento dos dados, a forma com que os mesmos serão visualizados no aplicativo e os pacotes necessários para alcançarmos nossos objetivos.

3.1

Leitura e Pré-processamento dos microdados

A leitura dos microdados do ENEM 2015 através do R (R Core Team, 2016) não é viável para qualquer computador. Algumas configurações de hardware podem levar horas de processamento e, por vezes, não obter sucesso. Contudo, podemos saber do conteúdo através do dicionário dos microdados. Ele dispõe de informações pessoais, socioeconômicas e informações do exame de cada candidato.

As variáveis sexo, UF de residência e as cinco notas do exame foram conveniente-mente selecionadas para compor a exposição dos dados. Posteriorconveniente-mente, a variável UF de residência foi transformada em região, conforme divisão geográfica do Instituto Brasileiro de Geografia e Estatística (IBGE) e a variável média foi criada, correspondendo à média aritmética das cinco notas do exame.

A limpeza foi feita no sistema operacional Linux, com a linguagem awk. Na primeira tentativa às cegas, algumas colunas selecionadas não correspondiam às colunas desejadas. Assim, foram criadas versões menores dos microdados com as primeiras dez mil linhas para uma visualização do cabeçalho dos dados. As edições de 2010 e 2011 têm um formato diferente dos anos posteriores e tiveram um tratamento diferente. Utilizando os input do software SAS disponíveis no microdados, fizemos a leitura e exportamos como arquivo .csv. Não foi necessária a limpeza como nas outras edições, pois no próprio SAS somente as variáveis de interesse foram lidas. Os microdados do ENEM 2012 tinham os dados entre aspas. Desta forma, quando o R lia o arquivo entendia os números como variáveis categóricas. Por isso, fizemos uma preparação nos dados, retirando as aspas em editor de texto, localizando-as e substituindo-as de forma automática. Os arquivos em formato .csv gerados pelo SAS também apresentavam os dados entre aspas e o mesmo procedimento foi realizado.

Nas edições de 2010, 2011 e 2012, o questionário socioeconômico é encontrado em um arquivo separado nos microdados, e por algum motivo que não conhecemos, o número de pessoas que responderam ao questionário socioeconômico é maior que o número de pessoas nos questionário principal. A solução foi filtrar as linhas do questionário socioeconômico a partir do número de inscrição que também constavam no questionário principal.

(21)

Capítulo 3. Metodologia 20

Como foi comentado anteriormente, o ENEM passou por uma reformulação em 2009. Tínhamos a intenção de montar o aplicativo a partir da edição de 2009, entretanto o Inep não disponibilizou as notas dos participantes para esse ano.

A fim de deixar uma visualização mais limpa no aplicativo, optamos por comparar as notas por grande região geográfica ao invés do estado do candidato. Como os microdados não dispõem de uma coluna com essa informação, escrevemos uma função para criar uma coluna de região a partir dos estados de cada candidato.

3.2

Shiny

Shinyé um pacote do R que cria ferramentas interativas, permitindo que possamos compartilhar os resultados das análises em aplicativos publicáveis na internet, tudo de forma gratuita. O pacote possui diversas funções, permitindo a construção de uma variedade de projetos, seja com mapas, gráficos, tabelas, números, dados, fórmulas, imagens ou textos, por exemplo. É possível ainda utilizar outras linguagens além de R, como HTML e JavaScript, para configurar a interface do aplicativo.

As interações podem ser feitas através de botões clicáveis e deslizantes, digitação, upload de arquivos, download de resultados, seleção de itens, posicionamento do mouse na tela, entre outros. As funcionalidades disponíveis para o desenvolvedor permitem a criação de aplicativos úteis, fáceis de usar, esteticamente agradáveis, além de amigável para o usuário.

Outra funcionalidade do shiny é o desenvolvimento de dashboards, importantíssimos em empresas do segmento de indústria e aplicável em diversas áreas. Dashboards são literalmente painéis de controle. Pense no painel de um carro, onde é possível ver o status do carro em tempo real. Essa é a proposta de um dashboard, mostrar indicadores e resultados do momento atual. Com esse painel de controle o usuário tem uma visão geral de como andam as coisas e pode tomar decisões mais rápidas. Para que isso funcione bem, é necessário que os dados que abastecem o dashboard estejam em constante atualização, ou seja, que estejam online.

Diante das possibilidades proporcionadas, o shiny torna-se uma ferramenta muito útil para uso profissional. Pesquisadores têm desenvolvido aplicativos para uso em suas respectivas áreas, possibilitando que demais estudiosos possam ganhar tempo, assim como ser incentivado a novos estudos. Bons exemplos do uso do shiny na área de pesquisa são os trabalhos de Lynch (2015), Dunning et al. (2017) e Francis (2017), citados no Capítulo 2. Aplicativos na área da educação têm sido desenvolvidos por professores para demonstrar conteúdos interativamente, facilitando a didática do docente e a assimilação dos estudantes. Empreendedores também podem desenvolver soluções no shiny para suas empresas, aproveitando a capacidade do uso de dados online da ferramenta.

(22)

Capítulo 3. Metodologia 21

Apesar de possibilitar o uso de outras linguagens utilizadas na criação de páginas na internet, como HTML, CSS e JavaScript não é necessário saber usá-las. Elas permitem um uso mais avançado da ferramenta, mas mesmo sem esses conhecimentos é possível aprender a usar a ferramenta. O próprio shiny dispõe de uma página com tutorial, disponível no link <https://shiny.rstudio.com/tutorial/>. Portanto, o uso do shiny não se restringe ao ambiente profissional, pois pessoas comuns podem utilizar o shiny para praticar seus

hobbies, curiosidades e compartilhar tudo gratuitamente.

3.3

Visualização dos Dados

Quando desejamos uma visão geral de uma variável que pretendemos estudar, é importante que tenhamos uma ideia da variabilidade associada a essa variável. Os números observados variam entre quais valores? Eles variam igualmente entre estes valores, ou tendem a estar mais próximos de um deles? Onde a maioria dos números observados se concentra? Existem números muito distantes dos demais?

Podemos responder a essas perguntas através de visualização gráfica e através do cálculo ou estimação de parâmetros. Neste trabalho, optamos pelo uso de dois gráficos: boxplot e histograma. Ambos os tipos de gráficos são excelente ferramentas de visualização de variáveis contínuas e, sabendo interpretá-los, fica fácil entender a variabilidade dos dados. O boxplot, em particular, possibilita comparações práticas entre grupos. O histograma é mais intuitivo para entender onde os dados se concentram, devido à sua semelhança com um gráfico de colunas. Em complemento aos gráficos, produzimos tabelas com diversas medidas, a saber: média, desvio padrão, mínimo, máximo, amplitude, mediana, primeiro e terceiro quartil.

O boxplot, ou gráfico de caixa, de acordo com Bussab e Morettin (2013) recebe esse nome pelo seu formato. Sua aparência retangular e com hastes não é intuitiva de interpretar. É necessário entender sua estrutura. Para isto, vamos utilizar o boxplot das notas em ciências da natureza no ENEM 2015 segundo o sexo, como exibido na Figura 3.1. A seguir, vamos explicar algumas definições e detalhar cada uma das componentes de um boxplot.

Quartil: Um quartil é um dos três valores que dividem algo inteiro em quatro partes iguais. No caso de uma amostra ou população, o quartil divide os dados ordenados em quatro intervalos com o mesmo número de observações.

Amplitude interquartil (AIQ): É a diferença entre o terceiro e o primeiro quartil. Esse valor nos informa sobre a dispersão dos valores observados. Diferente da variância, ele considera a ordem crescente dos dados e não é afetado por valores muito pequenos ou muito grandes.

(23)

Capítulo 3. Metodologia 22

Figura 3.1 – Estrutura do Boxplot.

Fonte: Autora

Intervalo interquartil: é o intervalo que contém os valores entre o primeiro e o terceiro quartil. Note que 50% dos valores centrais observados se encontram nesse intervalo e que esse intervalo é o tamanho da caixa.

1º quartil (Q1): Os valores abaixo deste valor correspondem a 25% dos dados.2º quartil ou Mediana (Q2): O quartil que divide os dados pela metade é

conhecido como mediana.

3º quartil (Q3): Os valores abaixo deste valor correspondem a 75% dos dados.Limite inferior (LI): O limites inferior é determinado pela fórmula: LI = Q1 −

k ∗ AIQ, onde k é um número real. Optamos por k = 1,5, pois este valor capta mais

de 99% dos dados. Portanto, o cálculo do limite inferior ficou:

LI = Q1 − 1,5 ∗ AIQ

Limite superior (LS): De forma similar ao limite inferior, obtemos o limite superior através da seguinte fórmula:

LS = Q3 + 1,5 ∗ AIQ

• Outliers: São valores atípicos, ou seja, muito distantes dos demais valores observados. A detecção de outliers é muito importante, pois esses valores raros nos dados causam tendências em parâmetros e estimadores. Os outliers podem ser muito menores ou

(24)

Capítulo 3. Metodologia 23

muito maiores que os demais valores observados e a identificação é feita baseada nos limites inferior e superior. Portanto, se um um valor é menor que o limite inferior ou é maior que o limite superior, então ele é um outlier.

Na Figura 3.1 temos dois boxplots, um representando as notas em ciências da natureza no ENEM 2015 do sexo masculino e outro representando o sexo feminino. Optamos por esse gráfico para exemplificar a interpretação do boxplot e a comparação de grupos.

Inicialmente identificamos que o eixo horizontal representa as notas observadas e o eixo vertical a identificação do grupo. Observe que o boxplot do sexo masculino está mais à direita do boxplot do sexo feminino e que a caixa e as hastes são mais compridas em relação ao grupo feminino. O grupo feminino possui 75% das observações um pouco acima de 500 pontos e os valores raros (exceto zero) variam entre 625 e 875 pontos, aproximadamente. O grupo masculino tem metade das observações próximas de 500 pontos, o primeiro quartil do grupo está próximo da mediana do grupo feminino, o limite superior ultrapassa 680 pontos e seus valores raros variam deste ponto até cerca de 875 pontos. Portanto, o grupo masculino teve melhor desempenho na prova de ciências da natureza no ENEM 2015.Ambos os grupos possuem outliers, veja que a nota zero ocorre nos dois grupos, mas é raro entre as notas observadas. Existem sequências de outliers imediatamente após os limites superiores. O grande número de outliers sequenciais e sobrepostos (a cor mais escura indica que há sobreposição de pontos) deu essa aparência de uma haste mais espessa. Perceba que os outliers são valores próximos um dos outros e que possuem mais de uma observação, no entanto são classificados como valores raros. Isso ocorre devido ao grande número de observações que temos, o que significa que os valores encontrados entre os limites inferior e superior possuem muito mais casos. Desta forma, os valores mais extremos tornam-se casos raros.

O histograma se assemelha a um gráfico de colunas, mas sua estrutura informa mais do que a frequência dos dados. A estrutura de um histograma é exibida na Figura 3.2, em que temos os mesmos dados das notas em ciências da natureza no ENEM 2015 por sexo utilizados para produzir os boxplots da Figura 3.1. Observe que há dois grupos de colunas, um rosa e um azul, representando o sexo feminino e o sexo masculino, respectivamente. Cada grupo de colunas é um histograma. Eles estão sobrepostos e a cor mais escura é a interseção entre eles.

As classes são representadas pela base das colunas do histograma. Cada classe representa um intervalo dos dados. Não há espaçamento entre as classes, pois o eixo horizontal representa o intervalo onde os valores da variável são observados. Portanto, o fim de uma classe é o início da classe seguinte. É comum que o eixo vertical do histograma represente a frequência ou a densidade dos dados. Neste trabalho optamos pelo uso da proporção no eixo vertical, pois desta forma é possível fazer comparação entre grupos de

(25)

Capítulo 3. Metodologia 24

Figura 3.2 – Estrutura do Histograma.

Fonte: Autora

tamanhos diferentes. As amplitudes das classes de um histograma podem variar e a área do retângulo formado é proporcional à unidade de medida do eixo vertical. Optamos pelo uso de amplitudes iguais nas classes, pois com a base igual podemos olhar somente para altura do retângulo como a unidade de medida escolhida no eixo vertical.

Assim como feito para o boxplot, vamos interpretar a Figura 3.2. Tendo os eixos e grupos identificados, vemos que o histograma do sexo masculino se encontra mais à direita que o histograma do sexo feminino, alcançando notas mais altas e com frequências maiores. Entre 0 e 25 pontos e entre 475 e 500 pontos a proporção entre os sexos é próxima. Entretanto, o histograma do sexo feminino tem maiores proporções nas classes que antecedem 475 pontos. Consequentemente, o sexo masculino apresenta maiores proporções nas classes posteriores, desta forma, constatamos que o sexo masculino teve melhor desemprenho nas notas de Ciências da Natureza no ENEM 2015. Uma observação é o vazio entre a primeira e a segunda coluna a aparecerem, entre 0 e 25 pontos, e 325 e 350 pontos. Note que o histograma não ignora a ausência de observações entre 25 e 325 pontos, ele mantém o eixo horizontal em sua sequência. Perceba que no histograma podemos ver que valores acima de 750 e entre zero e 25 têm uma proporção muito baixa. Isso pode ser um indicativo de outliers e podemos confirmar vendo o boxplot correspondente.

As tabelas resumo auxiliam e complementam a leitura dos gráficos, fornecendo números exatos e medidas que não constituem os gráficos. As tabelas apresentam resultados da nota e ano selecionado; a divisão por grupo é feita na própria tabela gerada. A opção de download da tabela é disponibilizada em formato .csv para que o usuário possa manipulá-la da forma que preferir.

(26)

Capítulo 3. Metodologia 25

3.4

ggplot2

O pacote ggplot2 cria gráficos visualmente mais elegantes que as funções usuais do R. A escolha do uso do pacote vai além da estética, pois possui uma configuração diferente na construção dos gráficos. Desta forma, habilita diversas opções de personalização, tem uma linguagem mais prática na elaboração no código e dispõe de opções que nem sempre existem nas funções usuais.

A construção de gráficos no ggplot2 é baseada na “Gramática de Gráficos”. Esta teoria parte do pressuposto de que o gráfico é formado por sete camadas: dados, estética, geometria, facets, estatística, coordenadas e tema.

Os dados consistem na camada base. É a partir dos dados que pensaremos quais variáveis serão trabalhadas, se queremos fazer comparações entre grupos e o que desejamos visualizar dessa variável, como dispersão, distribuição, quantidades, comportamento no decorrer do tempo, interação com outras variáveis, entre outros. Definiremos as escalas das variáveis selecionadas na camada de estética. Geometria é a camada onde definimos as formas dos elementos gráficos, tais como pontos, linhas e e intervalos. A camada facets é útil quando desejamos dividir informações do gráfico para uma melhor visualização, podendo ser utilizada para comparações de grupos. A estatística é a camada que representa a análise dos dados. As coordenadas nos dirão onde o gráfico será construído, se em coordenadas cartesianas ou polares, por exemplo. Por fim, o tema é a última camada, a visualização geral do gráfico.

O ggplot2 irá formar os gráficos com base nessas camadas, como parcelas somadas umas às outras. Tomemos como exemplo a construção da Figura 1.2 (apresentada na página 11). Os dados podem ser vistos na Tabela 3.1.

Considere a leitura dos dados no R conforme a Tabela 3.2. Portanto, temos:

1 i n s c r i t o s = read . table ( " i n s c r i t o s enem 98 -17. txt " , header = F ) 2 c o l n am e s ( i n s c r i t o s ) = c ( " ano " , " num " )

Vamos baixar e carregar o pacote ggplot2.

1 install . p a c k ag e s ( " ggplot2 " ) 2 library ( ggplot2 )

Nosso objetivo é criar um gráfico de linhas. Para darmos início a construção do gráfico usamos a função ggplot. Entretanto, o comando ggplot(inscritos) gera uma tela cinza, vazia, conforme vemos no primeiro gráfico da Figura 3.3, pois a função ggplot pede por uma estética, ou seja, as escalas das variáveis. Vamos colocar os anos no eixo x e o número de inscritos no eixo y, pensando no sistema de coordenadas cartesiano.

(27)

Capítulo 3. Metodologia 26

Tabela 3.1 – Número de Inscritos nas Edições do ENEM de 1998 a 2017. Ano Milhões de inscritos

1998 0,2 1999 0,3 2000 0,4 2001 1,6 2002 1,8 2003 1,9 2004 1,6 2005 3,0 2006 3,7 2007 3,6 2008 4,0 2009 4,1 2010 4,6 2011 5,4 2012 5,8 2013 7,2 2014 8,7 2015 7,7 2016 8,6 2017 7,6 Fonte: Autora

Tabela 3.2 – Nomes dos objetos no R.

Objeto Nome no R

Arquivo com a tabela inscritos

Coluna dos anos anos

Coluna dos números de inscritos num Vetor com os rótulos dos dados lab Fonte: Autora

A imagem gerada pelo comando acima consiste no segundo gráfico (da esquerda para direita) na Figura 3.3, a função ainda não sabe que geometria aplicar, então vamos dizer que queremos linhas. Observe que essa camada é adicionada ao gráfico com o operador “+”.

1 ggplot ( inscritos , aes ( y = num , x = ano ) ) + geom _ line ()

O resultado é o terceiro gráfico da Figura 3.3, onde já temos um gráfico de linhas informativo. Outros comandos foram adicionados para chegar no resultado final, a Figura 1.2, como tema, pontos, texto, intervalos dos eixos, cores e tamanhos. O código para o resultado final necessitou da criação de um vetor com os rótulos dos dados, para que eles aparecessem no gráfico, chamamos o vetor de lab. Veja a seguir.

1 lab = c ( " 0 ,2 " ," 0 ,3 " ," 0 ,4 " ," 1 ,6 " ," 1 ,8 " ," 1 ,9 " ," 1 ,6 " ," 3 ,0 " ," 3 ,7 " ," 3 ,6 " ," 4 ,0 " ," 4 ,1 " ," 4 ,6 " ," 5 ,4 " ," 5 ,8 " ," 7 ,2 " ," 8 ,7 " ," 7 ,7 " ," 8 ,6 " ," 7 ,6 " )

(28)

Capítulo 3. Metodologia 27

2 ggplot ( inscritos , aes ( y = num , x = ano ) ) + 3 geom_ line ( co l o u r = " #40 b8d0 " , size =1.2) +

4 labs ( x = " Ano " , y = " Milh õ es de I n s c r i t o s " ) + the me_ bw () +

5 scale _ x _ c o n t i n u o u s ( b re a k s = seq (1998 ,2017 ,1) ) +

6 geom_ text ( aes ( label = lab ) , nudge _ x = -0.2 , nudge _ y = 0.3 , size =3 ,

7 f o n t f a c e = " bold " ) + geom_ point ( size =2 , c o l ou r = " #40 b8d0 " )

Figura 3.3 – Criação de Gráfico no ggplot2.

Fonte: Autora

3.4.1

Dificuldades encontradas no uso do ggplot2

Para criar as estruturas dos gráficos utilizamos um arquivo com as primeiras dez mil linhas da edição de 2015, para que a visualização fosse mais rápida.

A função geom_boxplot nos permite gerar boxplots por grupos. Entretanto, se tentarmos gerar um boxplot de uma única variável vamos encontrar um erro. A solução para isso foi parametrizar da seguinte forma x = "x". Para colocar os gráficos separados pelo grupo região, foi utilizado o comando facet_grid ou facet_wrap() (lembram da camada facets? Olha ela aqui em uso). Nos gráficos com o grupo renda, o comando scale_fill_discrete() foi utilizado para que definíssemos a legenda.

Foi observado que, à medida que os gráficos eram solicitados no aplicativo shiny, mantinham-se na memória. Devido ao tamanho dos dados, os arquivos dos gráficos preenchiam rapidamente a memória, travando o aplicativo. Limpar a memória a cada gráfico não é viável, pois seria necessário carregar o arquivo novamente a cada gráfico solicitado. Para tanto, decidimos criar um arquivo para cada gráfico e aplicar o comando rm(list=ls()) antes do código de cada gráfico solicitado pelo usuário. Com isso, o problema do travamento foi solucionado. Entretanto, o aplicativo estava muito lento. O tempo para gerar alguns boxplots passou de 10 minutos, devido aos milhares de outliers que deveriam ser plotados. Foi quando pensamos em fazer os gráficos utilizando os resumos dos dados, sem perder informação.

(29)

Capítulo 3. Metodologia 28

Sabemos que o boxplot é um gráfico desenhado a partir de cinco estatísticas e dos

outliers, quando estes existem. Foi partindo desse raciocínio que pensamos em resumir os

dados nos cinco parâmetros que formam o boxplot e seus respectivos outliers. O problema nesse resumo é que, com os dados em forma de parâmetros, não conseguimos gerar o boxplot com o comando que estava em uso. Entretanto, o geom_boxplot permite a construção de boxplots com as cinco estatísticas. Porém, a função não considera a existência de

outliers. A solução para este empecilho foi encontrada na resposta a uma pergunta no site

<https://stackoverflow.com/>. Um dos membros sugeriu a criação de uma tabela com uma coluna para cada estatística e uma sexta coluna para os outliers. Utilizando o pacote dplyr, a adaptação para nosso conjunto de dados ficou da seguinte forma:

1 g15 = read . csv ( " g15 . csv " , header = T ) 2 bm15 <- g15 % >% do ({

3 st ats <- as . n u m e r i c ( q u a n t i l e (. $ media , c (0 , 0.25 , 0.5 , 0.75 , 1) , na . rm = T ) )

4 iqr <- diff ( stats [ c (2 , 4) ])

5 coef <- 1.5

6 o u t l i e r s <- . $ media < ( stats [2] - coef * iqr ) | . $ media > ( stats [4] + coef * iqr )

7 if ( any ( o u t l i e r s ) ) {

8 st ats [c (1 , 5) ] <- range ( c ( stats [2:4] , . $ media [ ! o u t l i e r s ]) , na . rm = TRUE )

9 }

10 o u t l i e r_ v a l u e s = . $ media [ o u t l i e r s ]

11 if ( l e n g t h ( o u t l i e r _ v al u e s ) == 0) o u t l i e r _ v a l u e s <- NA _ real _

12 res <- as . list ( t ( stats ) )

13 names ( res ) = c ( " lower . w h i s k e r " ," lower . hinge " ," m e d i a n " ," upper . hinge " ," upper . w h i s k e r " )

14 res$ out <- o u t l i e r _ v al u e s

15 as . data . frame ( res )

16 })

em que g15 é o arquivo da edição de 2015. Suas primeiras linhas podem ser visualizadas na Tabela 3.3.

Tabela 3.3 – Primeiras linhas no arquivo g15.

reg sexo CN CH LC MT red media renda

S M 657.40 705.30 591.10 732.30 760 689.22 D SE M 0 B NE M 528.50 531.10 511.30 566.50 640 555.48 B SE F 0 F SE M 679.90 730.60 621.20 732.40 800 712.82 G S M 598.70 658.00 579.00 576.40 480 578.42 F Fonte: Autora

Esse código foi utilizado para gerar o gráfico das médias no ENEM 2015, em todo o Brasil, sem divisões por grupo. As células em branco significam que o inscrito não realizou a prova na respectiva área de conhecimento, mas observe que o Inep atribui nota zero na redação mesmo para quem faltou nos dois dias do exame. Após gerar os arquivos, observamos que apesar de ser um arquivo com menor quantidade de linhas, ele podia diminuir ainda mais, pois havia muitas linhas idênticas e outras que diferiam somente nas casas decimais dos outliers. Como nosso intervalo de notas é bem grande, com grande

(30)

Capítulo 3. Metodologia 29

amplitude, as casas decimais dos outliers não mudam o resultado gráfico da variável. Portanto, retiramos as casa decimais dos outliers e excluímos as linhas que se repetiam. Como exemplo, tomemos a redução de linhas observada no arquivo para o boxplot das médias do ENEM 2015, para todo o Brasil na Tabela 3.4.

Tabela 3.4 – Redução de linhas no arquivo para gerar o boxplot das médias do ENEM 2015 no Brasil.

Conteúdo do arquivo Número de linhas

Todos os dados 7.746.427

Parâmetros e ouliers 2.265.885

Parâmetros e outliers sem linhas repetidas 374 Fonte: Autora

Após a limpeza, outro procedimento adotado para melhorar a performance da geração de gráficos foi salvar os arquivos com a estrutura binária .rds, pois desta forma o arquivo é menor e é carregado mais rapidamente. O comando para geração do boxplot ficou sendo

1 ebm15 = readRDS ( " ebm15 . rds " )

2 bm15 = ggplot ( ebm15 , aes ( x = " x " , y = out , middle = median , 3 ymin = lower . whisker , ymax = upper . whisker ,

4 lower = lower . hinge , upper = upper . hinge ,

5 al pha = 0.5) ) +

6 geom_ b o x p l o t ( stat = " i d e n t i t y " , fill = " a q u a m a r i n e 4 " ) +

7 geom_ point () + theme _ bw () + coord _ flip () +

8 labs ( x = " B r a s i l " ,y = " M é dia no ENEM 2015 ( B r a s i l ) " , 9 title = " B o x p l o t das M é dias no ENEM 2015 " ) +

10 th eme (l eg e n d . p o s i t i o n = " none " , axis . text . x = e l e m e n t _ text ( co l o ur = " white " ) )

De forma análoga produzimos os outros boxplots que consideram todo o Brasil. Para os grupos sexo e renda, utilizamos x = sexo e x = renda, respectivamente, na função aes(). Nos gráficos sem casos de outliers o parâmetro y foi retirado da função aes(), assim como a função geom_point.

Utilizando os arquivos com os parâmetros do boxplot montamos arquivos para gerar os boxplots que incluem todos os anos. Desta forma, é possível ver a variação das notas no decorrer da edições do exame. O código dos gráficos não difere muito dos códigos apresentados acima. Criamos uma coluna identificadora do ano e utilizamos facets para dividir os dados. No grupo sexo e região, a divisão mais restrita, o comando utilizado foi facet_wrap(e˜reg, ncol = 5, strip.position = "right"), em que e é a coluna que identificadora dos anos e reg é a coluna que identifica a região.

Quando vamos fazer um histograma com as próprias mãos, sem uso de um programa computacional, nós o fazemos a partir de uma tabela de frequências com intervalos dos dados. Neste trabalho optamos pela proporção das notas como parâmetro, devido à facilidade de interpretação e comparações, visto que os grupos não têm o mesmo número de inscritos. Portanto, usaremos tabelas de frequência para resumir os dados para os

(31)

Capítulo 3. Metodologia 30

histogramas, porém com as frequências transformadas em proporções. A partir daí faremos um gráfico de barras com as configurações necessárias para que o resultado se iguale ao do comando geom_histogram. Antes de iniciarmos a geração das tabelas, tivemos que determinar qual método usaríamos para definir o número de classes, e assim o tamanho dos intervalos. Optamos pela Regra de Sturges, pois ela considera a extensão dos dados para determinar o número de classes, além de funcionar bem para um grande número de observações. Sua fórmula é

k = 1 + 3,3 log10(N ),

em que k é o número de classes e N é o tamanho da população. Em nosso código utilizamos a parte inteira de k somada a 1 como o número de classes, a fim de arrendondar sempre para o próximo número inteiro.

A dificuldade na geração dos gráficos foi a transformação dos gráficos de colunas em histogramas, principalmente quando havia comparação de grupos. Para os grupos sexo e renda, havíamos determinado que a visualização seria com os histogramas de cada nível sobrepostos, configuração que o geom_histogram faz normalmente, porém não há equivalência no geom_bar. Encontrada em uma resposta no site <https://stackoverflow. com/>, a solução consiste em adicionar um geom_bar para cada nível, pois desta forma o ggplot sobrepõe as camadas. Para que funcione bem, a camada de estética deve ser a mesma para todos os níveis, para que sigam a mesma escala. Veja a seguir como ficou o código do histograma da média no ENEM 2015 por sexo.

1 thms15 = readRDS ( " thms15 . rds " )

2 k = thms15 $ i n t e r v a l o [2] - thms15 $ i n t e r v a l o [1] 3 hms15 = ggplot ( thms15 ) + theme _ bw () +

4 geom_ bar ( aes ( x = intervalo , y =F , fill = " F " ) , width =k , stat = " i d e n t i t y " , alpha = 0.5) +

5 geom_ bar ( aes ( x = intervalo , y =M , fill = " M " ) , width =k , stat = " i d e n t i t y " , alpha = 0.5) +

6 scale _ fill _ d i s c r e t e ( name = " L e g e n d a " ) +

7 labs ( x = " M é dia no ENEM 2015 " , y = " P r o p o r ç ã o " ,

8 title = " H i s t o g r a m a das P r o p or ç õ es das M é dias no ENEM 2015 S e g u n d o o Sexo " )

em que o arquivo thms15.rds contém uma coluna com as médias dos intervalos definidos na geração das tabelas, pois desta forma, o eixo x fica indicado como em um histograma; o arquivo contém ainda duas colunas com as proporções de casos dentro do intervalo para cada sexo. Note que a coluna do intervalo é a escala do gráfico, e ela é a mesma para os dois níveis da variável. De forma análoga fizemos os histogramas da variável renda, onde uma coluna de proporções foi criada para cada nível de renda. Outra observação é a necessidade do geom_bar saber o valor de k para que as colunas fiquem unidas como em um histograma, por isso calculamos k novamente fazendo uma diferença com valores da coluna intervalo.

Para o grupo região, decidimos usar a comparação em divisões, com facet_wrap. Neste caso, como o código para gerar o gráfico é diferente, as tabelas também serão montadas de modo diferente. Ao contrário das variáveis sexo e renda que possuem uma

(32)

Capítulo 3. Metodologia 31

coluna para cada nível, aqui haverá somente uma coluna identificadora da região mais a coluna das médias dos intervalos e a coluna de proporções. O código para o histograma da média do ENEM 2015 por região pode ser visto abaixo, onde thmr15.csv é o arquivo descrito.

1 thmr15 = readRDS ( " thmr15 . rds " )

2 k = thmr15 $ i n t e r v a l o [2] - thmr15 $ i n t e r v a l o [1]

3 hmr15 = ggplot ( thmr15 , aes ( x = intervalo , y = prop ) , alpha =0.5) +

4 geom_ bar ( width =k , stat = " i d e n t i t y " , co l o u r = " a q u a m a r i n e 4 " , fill = " a q u a m a r i n e 4 " ) +

5 labs ( x = " M é dia no ENEM 2015 " , y = " P r o p o r ç ã o " ,

6 title = " H i s t o g r a m a das P ro p or ç õ es das M é dias no ENEM 2015 S e g u n d o a Regi ã o " ) +

7 th eme_ bw () + facet _ wrap ( ~ reg , nrow = 1) +

8 th eme (axis . text . x = e l e m e n t _ text ( size = 8) )

A construção dos histogramas para o grupo sexo e região foi feita mesclando os códigos utilizados para sexo e para região. Portanto, a tabela ficou com uma coluna identificando a região, uma coluna para as proporções do sexo masculino e outra para as proporções do sexo feminino e a coluna das médias dos intervalos. Para exemplificar, veja a seguir o código do histograma das médias do ENEM 2015 por sexo e região, onde o arquivo com a tabela foi chamado de thmsr15.csv.

1 thmsr15 = readRDS ( " thmsr15 . csv " )

2 k = t h m ts r 1 5 $ i n t e r v a l o [2] - t h m t sr 1 5 $ i n t e r v a l o [1] 3 hmsr15 = ggplot ( thmsr15 ) +

4 geom_ bar ( aes ( x = intervalo , y =F , fill = " F " ) , width =k , stat = " i d e n t i t y " , alpha = 0.5) +

5 geom_ bar ( aes ( x = intervalo , y =M , fill = " M " ) , width =k , stat = " i d e n t i t y " , alpha = 0.5) +

6 labs ( x = " M é dia no ENEM 2015 " , y = " P r o p o r ç ã o " ,

7 title = " H i s t o g r a m a das P r o p or ç õ es das M é dias no ENEM 2015 S e g u n d o o Sexo e Regi ã o " ) +

8 scale _ fill _ d i s c r e t e ( name = " L e g e n d a " ) + theme _ bw () + facet _ wrap ( ~ reg ,= 2)

Não foi possível aproveitar os arquivos dos histogramas de anos individuais para os histogramas com todos os anos, assim como fizemos com os boxplots. Isso se deve aos intervalos de classe diferentes para cada gráfico. Portanto, tivemos que produzir novas tabelas com um k fixado, optamos fixar k = 30, pois é o default utilizado pelo comando geom_histogram. Os arquivos contém uma coluna identificadora do ano e os comandos seguem a mesma lógica, utilizando facets para dividir os dados por ano.

3.5

Scripts utilizados

Neste trabalho fizemos uso de três tipos de arquivos, os dados, os scripts para os pré-processamentos dos dados e os scripts que produzem o aplicativo, estes últimos são os arquivos ui.R e server.R. O arquivo ui.R é uma sigla para user-interface e é responsável pela interface do aplicativo, nele configuramos as interações a serem feitas com o usuário, a aparência do aplicativo e o que será exposto na tela. O server.R é o arquivo que recebe as solicitações do ui.R e processa, ele contém as instruções do que será devolvido para o arquivo ui.R expor.

(33)

Capítulo 3. Metodologia 32

Na Tabela 3.5 vemos em números a redução no tamanho dos arquivos após a seleção das variáveis.

Tabela 3.5 – Redução no tamanho dos arquivos. Ano Tamanho do arquivo em MB (megabytes)

Microdados (Inep) Após a seleção de variáveis 2010 4.884 336 2011 6.858 270 2012 5.217 424 2013 5.069 306 2014 6.105 370 2015 5.279 357 Total 33.415 2.066

Os arquivos ui.R e server.R contém 70 e 9.690 linhas, respectivamente. A quan-tidade de arquivos e o seu tamanho inviabiliza o compartilhamento por meio deste documento. Portanto, os scripts utilizados para realizar esse trabalho estão disponí-veis em um repositório no GitHub, no seguinte link <https://github.com/Marylaine/ Visualiza-o-dos-Resultados-do-ENEM-2010-a-2015-.git>.

(34)

33

4 Resultados

Nosso aplicativo encontra-se disponível no link: <http://shiny.estatistica.ccet.ufrn. br/enem>.

O aplicativo possui quatro abas, intituladas, Gráficos, Tabelas Resumo, Como Interpretar e Sobre, respectivamente. Veja na Figura 4.1 que a página inicial é a aba “Gráficos”. Ela contém um painel lateral onde o usuário interage escolhendo as opções desejadas e o gráfico resultante à direita. As opções iniciais são as médias do ENEM 2015 para todo o Brasil exibidas em um histograma. Após alterar as opções é necessário clicar no botão “Atualizar Opções”.

Figura 4.1 – Página inicial do aplicativo.

Fonte: Autora

Na aba “Tabelas Resumo”, exemplificada na Figura 4.2, é exibida a tabela cor-respondente ao ano e nota solicitados pelo usuário. As três primeiras colunas fazem as divisões por grupo, as colunas seguintes apresentam os parâmetros da variável. No início da página é possível fazer download da tabela em formato .csv, basta clicar no botão “download”.

Para que nosso aplicativo possa ser utilizado por leigos em estatística, criamos a aba “Como Interpretar”. Esta aba divide-se em histograma e boxplot, conforme a Figura 4.3. Em

(35)

Capítulo 4. Resultados 34

Figura 4.2 – Aba: Tabelas Resumo.

Fonte: Autora

cada aba é apresentada a estrutura do respectivo gráfico e um exemplo de interpretação. Veja na Figura 4.4 a aba sobre o gráfico histograma e na Figura 4.5 a aba sobre o boxplot.

Figura 4.3 – Aba: Como interpretar.

Fonte: Autora

Figura 4.4 – Aba: Como Interpretar - Histograma.

(36)

Capítulo 4. Resultados 35

Figura 4.5 – Aba: Como Interpretar - Boxplot.

Fonte: Autora

A aba “Sobre” fala um pouco do objetivo do aplicativo, sobre os autores e contém algumas observações para conhecimento do usuário. Veja na Figura 4.6.

Figura 4.6 – Aba: Sobre.

(37)

Capítulo 4. Resultados 36

A seguir vamos apresentar um exemplo de cada gráfico para cada grupo. Para isso, vamos fixar a média geral no ENEM e o ano de 2011.

Na Figura 4.7 temos o histograma e o boxplot referente à média do ENEM 2011 em todo território brasileiro.

Figura 4.7 – Gráficos para média no ENEM 2011 - Brasil.

Fonte: Autora

A Figura 4.8 mostra os gráficos gerados quando a média do ENEM 2011 é solicitada com a divisão por sexo. Os sexos são apresentados na mesma área gráfica.

Quando a nota é solicitada com divisão por região, a visualização será equivalente à Figura 4.9, em que o histograma apresenta as regiões em áreas gráficas separadas, enquanto o boxplot apresenta as regiões na mesma área gráfica.

Os histogramas gerados quando a divisão é por sexo e região mesclam os gráficos do grupo sexo e do grupo região, ou seja, os sexos estão representados na mesma área gráfica, enquanto a região é dividida em gráficos com a mesma escala. Os boxplots também apresentam os sexos na mesma área gráfica e as regiões em gráficos separados de mesma escala, conforme vemos na Figura 4.10.

Da mesma forma que a separação por sexo, a divisão por renda é apresentada na mesma área gráfica, como podemos ver na Figura 4.11

Os gráficos com todos os anos são diferentes, pois apresentam um grupo a mais. Para exemplificar essa diferença, temos na Figura 4.12 o boxplot e o histograma dividido por sexo e região, pois essa é a divisão mais restrita deste trabalho. Observe que as

(38)

Capítulo 4. Resultados 37

Figura 4.8 – Gráficos para média no ENEM 2011 por sexo.

Fonte: Autora

Figura 4.9 – Gráficos para média no ENEM 2011 por região.

Fonte: Autora

identificações das categorias estão na lateral do gráfico,pois desta forma a visualização ficou melhor.

(39)

Capítulo 4. Resultados 38

Figura 4.10 – Gráficos para média no ENEM 2011 por sexo e região.

Fonte: Autora

Figura 4.11 – Gráficos para média no ENEM 2011 por renda.

(40)

Capítulo 4. Resultados 39

Figura 4.12 – Gráficos para a média do ENEM por sexo, região e ano.

(41)

Capítulo 4. Resultados 40

Algumas observações sobre os gráficos e tabelas gerados.

• O Inep atribui nota zero na redação mesmo para os ausentes, exceto na edição de 2012. Isso pode explicar a alta proporção na primeira classe dos histogramas da média da redação.

• Na edição de 2010, o estado de residência do inscrito não era uma pergunta obrigatória. Logo, os inscritos sem identificação na região foram ignorados na geração dos gráficos com o grupo região e o grupo sexo e região, enquanto na tabela estes casos constam como NA na coluna região.

• Os histogramas por sexo e região mostram pouca diferença na proporção de notas entre os sexos dentro de cada região. Parecia ser um erro no ggplot, mas foi verificado e o resultado é este de fato.

• Apesar do nosso esforço em acelerar a geração dos gráficos, na opção “Todos os anos” poderá apresentar alguma demora no carregamento, isso devido à maior quantidade de dados, visto que inclui os seis anos disponíveis.

• Os histogramas da renda para todos os anos não seguem a mesma legenda, pois o Inep altera essa classificação todos os anos.

(42)

41

5 Considerações Finais

O objetivo de criar um aplicativo interativo que apresente os resultados das edições do ENEM de 2010 a 2015 foi alcançado. O aplicativo encontra-se em funcionamento no link <http://shiny.estatistica.ccet.ufrn.br/enem>. Essa ferramenta possibilita a visualização dos resultados do ENEM nas edições de 2010 a 2015 em 420 combinações de variáveis. Seu uso foi testado por alguns familiares e amigos, por leigos e não leigos em estatística. A interface parece agradar o usuário e, nas condições testadas, o tempo de resposta do aplicativo foi excelente. A reação de leigos aos gráficos apresentados foi diferente entre os gráficos. O histograma mostrou-se como um gráfico intuitivo de se interpretar, enquanto o boxplot pareceu muito técnico aos leigos. Entretanto, é possível interpretá-lo com o auxílio da aba “Como Interpretar - Boxplot”.

5.1

Trabalhos futuros

Tínhamos a intenção de disponibilizar mais grupos de variáveis no aplicativo e de encontrar um modelo preditivo que estimasse a média esperada de uma pessoa no ENEM, dadas suas características sócio-econômicas. Gostaríamos que a visualização das tabelas disponibilizasse opções interativas, tais como filtros e classificações nas colunas. Devido ao curto tempo que tivemos para finalizar este trabalho e a dificuldades imprevistas, não foi possível incluir estas aplicabilidades em nossa ferramenta. Portanto, estas funcionalidades ficam como sugestões para trabalhos futuros. Outra sugestão é excluir os ausentes nos resultados referentes à média da redação, pois o Inep atribui nota zero mesmo aos ausentes.

(43)

42

Referências

BRASIL, P. ENEM 2010 tem 4,6 milhões de candidatos inscritos. 2010. Disponível em: <http://www.brasil.gov.br/educacao/2010/08/ enem-2010-tem-4-6-milhoes-de-candidatos-inscritos>.

BRASIL, P. Comitê de Estatísticas Sociais: Bases de dados, Metadados do INEP,

ENEM. 2011. Disponível em: <http://ces.ibge.gov.br/base-de-dados/metadados/inep/

exame-nacional-do-ensino-medio-enem.html>.

BRASIL, P. Mais de 4 milhões participaram do ENEM 2012. 2012. Disponível em: <http:// www.brasil.gov.br/educacao/2012/11/mais-de-4-milhoes-participaram-do-enem-2012>. BRASIL, P. ENEM completa 15 anos com recorde de inscritos.

2013. Disponível em: <http://www.brasil.gov.br/educacao/2013/10/ enem-completa-15-anos-com-recorde-de-inscritos>.

BRASIL, P. ENEM 2014 tem mais de 8,7 milhões de participantes

confir-mados. 2014. Disponível em: <http://www.brasil.gov.br/educacao/2014/06/

enem-2014-tem-mais-de-8-7-milhoes-de-participantse-confirmados>. BRASIL, P. Enem 2015 registra o menor número de faltas em sete

anos. 2015. Disponível em: <http://www.brasil.gov.br/educacao/2015/10/

enem-tem-25-5-de-abstencao-menor-taxa-desde-2009>.

BRASIL, P. Enem: a segunda maior prova de acesso ao Ensino Superior do

mundo. 2015. Disponível em: <http://www.brasil.gov.br/educacao/2015/10/

enem-a-segunda-maior-prova-de-acesso-ao-ensino-superior-do-mundo>.

BRASIL, P. MEC anuncia mais de 8,6 milhões de estudantes inscritos no

Enem 2016. 2016. Disponível em: <http://www.brasil.gov.br/educacao/2016/05/

mec-anuncia-mais-de-8-6-milhoes-de-estudantes-inscritos-no-enem-2016>. BRASIL, P. Enem 2017 recebe mais de 7,6 milhões de inscritos. 2017. Disponível em: <http://www.brasil.gov.br/educacao/2017/05/ enem-2017-recebe-mais-de-7-6-milhoes-de-inscritos>.

BUSSAB, W. de O.; MORETTIN, P. A. Estatística Básica. São Paulo: Editora Saraiva, 2013.

CAVALCANTE, L. P. F. et al. ENEM 2005 – Pressupostos Teóricos, Desenho Metodológico e Análise dos Resultados. Revista de Ciências Humanas, v. 6, n. 2, p. 309–319, jul/dez 2006. Disponível em: <http://www.cch.ufv.br/revista/pdfs/vol6/artigo10vol6-2.pdf>. CORTI, A. P. As Diversas Faces do ENEM: Análise do Perfil dos Participantes (1999-2007). Estudos em Avaliação Educacional, v. 24, n. 55, p. 198–221, abr/ago 2013.

Disponível em: <http://dx.doi.org/10.18222/eae245520132724>.

DAVENPORT, T. H.; DYCHÉ, J. Big Data in Big Companies. International Institute for

Analytics, p. 1–31, may 2013. Disponível em: <http://www.sas.com/content/dam/SAS/

(44)

Referências 43

DUNNING, M. J. et al. Mining Human Prostate Cancer Datasets: The “camcAPP” Shiny App. EBioMedicine, v. 17, p. 5–6, mar 2017. Disponível em: <https:

//www.ncbi.nlm.nih.gov/pmc/articles/PMC5360593/>.

FRANCIS, R. M. SPECIAL ISSUE: POPULATION GENOMICS WITH RPOPHELPER: an R package and web app to analyse andvisualize population structure. Molecular

Ecology Resourses, v. 17, p. 27–32, jan 2017.

FRIAS, J. L. D. de. Uma ferramenta para a obtenção e análise de dados do ENEM. Dissertação (Mestrado) — PUC-Rio, Rio de Janeiro, 2015.

INEP. Série Histórica de Inscritos e participantes no Enem – 1998-2007. 2007. Disponível em: <https://www.google.com.br/url?sa=t&rct=j&q=&esrc=s&source=web&cd= 1&ved=0ahUKEwiaz4GDhLfWAhVMf5AKHdXKBeEQFggrMAA&url=http\%3A\ %2F\%2Fdownload.inep.gov.br\%2Fdownload\%2Fimprensa\%2F2007\%2Fpresenca_ enem2007.doc&usg=AFQjCNFAsbEHVWsesenfvAcurftvYoRn_w>.

LYNCH, A. Crambled: A Shiny application to enable intuitive resolution of conflicting cellularity estimates. F1000Research, v. 4, dec 2015.

MEC, P. Inscritos ao ENEM 2008. 2008. Disponível em: <http://portal.mec.gov.br/ arquivos/pdf/enem_2008.pdf>.

MEC, P. Inscritos ENEM 2009. 2009. Disponível em: <http://portal.mec.gov.br/ dmdocuments/inscritos_enem_2009.pdf>.

MEC, P. Inscritos ENEM 2011. 2011. Disponível em: <http://portal.mec.gov.br/index. php?option=com_docman&view=download&alias=8728-30-08-11-link-enem-tabelas& category_slug=agosto-2011-pdf&Itemid=30192>.

R Core Team. R: A Language and Environment for Statistical Computing. Vienna, Austria, 2016. Disponível em: <https://www.R-project.org/>.

SILVEIRA, F. L. d.; BARBOSA, M. C. B.; SILVA, R. d. Exame Nacional do Ensino Médio (ENEM): Uma análise crítica. Revista Brasileira de Ensino de Física - Online Ahead of

Print, v. 37, mar 2015. Disponível em: <http://dx.doi.org/10.1590/S1806-11173710001>.

VIGGIANO, E.; MATTOS, C. O desempenho de estudantes no Enem 2010 em diferentes regiões brasileiras. Revista brasileira de Estudos Pedagógicos (online), v. 94, n. 237, p. 417–428, mai/ago 2013. Disponível em: <http://link.springer.com/10.1007/ s00180-009-0178-4>.

Referências

Documentos relacionados

O Conselho Federal de Psicologia (CFP) apresenta à categoria e à sociedade em geral o documento de Referências Técnicas para a Prática de Psicólogas(os) em Programas de atenção

(2019) Pretendemos continuar a estudar esses dados com a coordenação de área de matemática da Secretaria Municipal de Educação e, estender a pesquisa aos estudantes do Ensino Médio

Mesmo com suas ativas participações na luta política, as mulheres militantes carregavam consigo o signo do preconceito existente para com elas por parte não somente dos militares,

Nos tempos atuais, ao nos referirmos à profissão docente, ao ser professor, o que pensamos Uma profissão indesejada por muitos, social e economicamente desvalorizada Podemos dizer que

Preenchimento, por parte dos professores, do quadro com os índices de aproveitamento (conforme disponibilizado a seguir). Tabulação dos dados obtidos a partir do

Além desta verificação, via SIAPE, o servidor assina Termo de Responsabilidade e Compromisso (anexo do formulário de requerimento) constando que não é custeado

É importante destacar também que, a formação que se propõem deve ir além da capacitação dos professores para o uso dos LIs (ainda que essa etapa.. seja necessária),

Declaro que fiz a correção linguística de Português da dissertação de Romualdo Portella Neto, intitulada A Percepção dos Gestores sobre a Gestão de Resíduos da Suinocultura: