• Nenhum resultado encontrado

2nd Workshop on Data Science and Statistical Learning, Vitória-ES, junho de Projeto ensinar : aprendendo R na era de ciência de dados

N/A
N/A
Protected

Academic year: 2021

Share "2nd Workshop on Data Science and Statistical Learning, Vitória-ES, junho de Projeto ensinar : aprendendo R na era de ciência de dados"

Copied!
5
0
0

Texto

(1)

Projeto “ensinaR”: aprendendo R na era de ciência de dados Flavia de Jesus1, Pedro de Brito Neto1, Bruno Santos1, Agatha Rodrigues1 1Universidade Federal do Espírito Santo

Resumo: O projeto “ensinaR” busca discutir e apresentar diferentes maneiras de aprendizado de roti-nas computacionais no software R, considerando abordagens distintas. Inserido nessa era de ciência de dados, em que os exemplos de análise de dados perpassam desde informações sobre músicas ou vídeos em aplicativos de streaming a dados de campeonatos esportivos, o projeto tenta ilustrar a beleza da programação nesse software sob a luz dessas diferentes aplicações. Além disso, o projeto incentiva a participação de alunos e alunas na construção de materiais introdutórios, que mesclam importantes ferramentas na análise de dados, como visualização de dados e controle de versões, com aplicações relevantes no contexto atual, como os dados da Covid-19 no Espírito Santo. São apresentados aqui a metodologia com que o projeto busca criar esses materiais de aprendizado de programação e também dois exemplos práticos dessa metodologia.

Palavras-chave: R, ciência de dados, aprendizado de programação. 1. INTRODUÇÃO

Com o aumento da facilidade de obtenção de dados atualmente e com a capacidade de armazenamento de uma enorme massa de dados, é importante o incentivo na disseminação de diferentes linguagens de programação, que podem ser utilizadas no tratamento e análise dessa massa de informação. Uma importante ferramenta nessa era de ciência de dados é o software R [2], que tem uma comunidade bastante ativa, uma vez que o repositório de pacotes está sempre a se atualizar, com novas ideias sempre incentivadas, dado o modo de desenvolvimento no formato open source. O repositório oficial de pacotes está disponível em https://cran.r-project.org/, disponibiliza desde funções básicas para carregar banco de dados nos mais diferentes formatos até pacotes para “raspar” informações da internet para criar a sua base de dados. Essa linguagem é também bastante conhecida pela facilidade em gerar gráficos da mais alta qualidade com alguns de seus pacotes, como o ggplot2 [3].

O projeto “ensinaR” é uma tentativa de disseminar o conhecimento dessa linguagem dentro da comuni-dade UFES e também dentro da comunicomuni-dade estatística no Brasil, através da construção de tutoriais e postagens no blog no site do Data Science Lab (DaSLab), https://daslab-ufes.github.io/, e tam-bém vídeos instrutivos no canal do YouTube, www.youtube.com/channel/UCEt4wnd1SUqp7EJLe3vbISA. Dessa forma, é possível escrever textos curtos apresentando algum conjunto de análises focado em um certo tema. Por exemplo, falamos sobre diferentes formas de apresentar informações em um mapa, assim como utilizar animações para ilustrar resultados estatísticos.

A escolha dessa abordagem se deve a uma tentativa de aproximar o aprendizado dessa linguagem com situações ao mesmo tempo práticas e interessantes. De certa forma, com esse método pretende-se utilizar exemplos que podem aumentar o engajamento de pessoas que possam ter uma certa aversão à programação.

Esse manuscrito está organizado da seguinte forma. Na Seção 2 apresentamos a metodologia que utilizamos no projeto, enquanto que na Seção 3 exemplificamos algumas das abordagens utilizadas, considerando duas postagens feitas com dois assuntos bastante distintos. Na Seção 4 finalizamos com algumas conclusões sobre o projeto.

2. METODOLOGIA

Considerando o objetivo do projeto que é ensinar ferramentas e rotinas computacionais do software R, são produzidos conteúdos através de postagens no blog do DaSLab e também vídeos no canal do You-Tube mencionado anteriormente. Acredita-se que esse método pode ajudar a exemplificar diferentes formas de analisar dados no R, o que pode ser uma boa maneira de adentrar nesse mundo da ciência de dados.

Antes de produzir algum conteúdo, seja uma postagem ou vídeo no YouTube, nos reunimos para definir um tema. Com uma troca de opiniões conseguimos ter ideias de temas que podem ser relevantes e enriquecedores para quem acompanha nossas postagens e nossos vídeos. Além de trazer conheci-mento, os temas precisam ajudar a alcançar outras pessoas que se interessam por esta área e também os temas precisam ser interessantes para atrair potenciais usuários. Com o tema definido, iniciamos as pesquisas dos materiais para produzir as postagens e vídeos, como encontrar banco de dados e pensar em pacotes e funções que iremos utilizar e após definir um roteiro do que queremos passar

(2)

para os nossos leitores, começamos a escrever. No início das postagens definimos uma proposta do que queremos fazer e de quais ferramentas iremos precisar para chegar nos resultados esperados. Um diferencial das nossas postagens é a combinação de texto explicativo, código e resultados. Como exemplo, temos na Figura 1 parte da postagem “Analisando o melhor canal do YouTube” em que, em resumo, é mostrado como usar uma API para acessar os dados da plataforma YouTube e como realizar diversos tratamentos utilizando várias funções e pacotes diferentes. Além disso, é mostrado como utilizar algumas ferramentas estatísticas no R como análise de correlação, por exemplo. Após a leitura do texto, esperamos que os leitores tenham aprendido de uma forma bem divertida como utilizar o R para analisar números e canais de vídeos da plataforma de vídeos e também ter uma noção de como poderia reproduzir as funções utilizadas em diversos trabalhos.

Figura 1: Exemplo de entrada de blog usando dados do YouTube.

Ao produzir as postagens e os vídeos são utilizados alguns programas e softwares. Os vídeos são gravados com os programas OBS (Open Broadcaster Software) e Loom, e editados com o Lightworks. Enquanto isso, as postagens são escritas no RStudio utilizando o Markdown.

(3)

3. RESULTADOS

Até aqui já produzimos diversos textos de vários tipos. Algumas postagens são do tipo curiosidades, como "Simulando campeões no Campeonato Brasileiro de 2020"e "O melhor filme do Tom Hanks". Outras são do tipo tutoriais/dicas como "Boas práticas no software R"e "Utilizando o pacote dplyr"[5]. Há também alguns temas mais teóricos como "Interpretabilidade em modelos preditivos – discussões iniciais na área da saúde". Mesmo com esse diferencial entre as postagens, sempre mantemos a estrutura de criação descrita na metodologia. Para mostrar um pouco sobre essa diversidade nos tipos de textos que nós produzimos e até mesmo para mostrar com mais detalhes as postagens prontas, vamos dar mais detalhes utilizando as postagens "Como trabalhar em grupo sem sofrer com o controle de versões"e "Como usar o R para analisar dados da Covid-19 no Espírito Santo"como exemplo nas próximas subseções. A ideia de apresentar essas ilustrações é mostrar dois temas que foram utilizados para exemplificar algumas ferramentas de análise que podem ser importantes para um cientista de dados. Nesse caso, a necessidade de trabalho em conjunto e a possibilidade de analisar bases públicas de um tema que é bastante relevante atualmente.

3.1 POSTAGEM SOBRE GITHUB

Na área da ciência de dados é comum trabalhar com grandes volumes de dados, compartilhar projetos e criar muitos códigos. Ao lidar com essa imensa quantidade de informações e arquivos, é comum arquivos se perderem por vários motivos, alterações não salvas, arquivos deletados sem querer e outros possíveis problemas. Uma maneira de evitar que esses transtornos aconteçam é salvando os arquivos em um local seguro e uma boa opção é na nuvem. Além disso, outra ferramenta interessante é o Git, que é um gerenciador de versões. Em outras palavras, ao trabalhar em um projeto utilizando o Git, tudo aquilo que estiver sendo feito poderá ser salvo e enviado para a nuvem, em que cada versão do código poderá ser acessada posteriormente em caso de erros, por exemplo. Além de deixar os arquivos mais seguros devido ao controle das versões, o Git possibilita navegar entre várias versões de um código. Um local onde essas versões podem ser salvas é no GitHub, que é um repositório online gratuito que pode ser compartilhado com outras pessoas, possibilitando uma exposição dos códigos e projetos. Uma forma de aproveitar melhor o que Git e GitHub têm a oferecer é integrando-os com alguma IDE (do inglês Integrated Development Environment ou Ambiente de Desenvolvimento Integrado), por exemplo, o RStudio. Conectando o Git no RStudio, têm-se uma maior praticidade, pois os códigos podem ser salvos com comandos do tipo point and click.

Na postagem “Como trabalhar em grupo sem sofrer com o controle de versões”, ensinamos como trabalhar com o Git e o GitHub em conjunto com o RStudio, onde ilustramos com imagens e códigos, como instalar os programas, conectar o Git e o GitHub ao RStudio, criar projetos e repositórios, criar arquivos e enviá-los ao GitHub e a atualizar repositórios do GitHub para o computador. Utilizamos o usethis [4], que é um pacote de fluxo de trabalho. Ele possui várias funções que ajudam em tarefas relacionadas ao Git, como push, pull, clone, fork e release.

Figura 2: Exemplo de ação do tipo push.

Exemplificando algumas dessas tarefas relacionadas ao Git, a Figura 2 e a Figura 3 foram retiradas da postagem, onde o primeiro exemplo é de push e o segundo de pull, utilizando o RStudio como aliado. O push envia todas as alterações produzidas no computador para o GitHub. Enquanto o pull atualiza todas as modificações armazenadas no GitHub para o repositório local no computador.

Esses exemplos nas Figura 2 e Figura 3 foram realizados no RStudio, porém é possível utilizar o ter-minal para realizar essas tarefas. Escolhemos utilizar o Git e o GitHub no RStudio pela facilidade da interface gráfica. No RStudio com poucos comandos é possível configurar, conectar e usar as tarefas do Git, enquanto no terminal é necessário digitar vários comandos.

(4)

Figura 3: Exemplo de ação do tipo pull.

Com essa postagem, desejamos que uma pessoa que tenha acesso a essa informação perceba a importância de ferramentas como controle de versões e que consiga dar os seus primeiros passos nessa área, utilizando meios como o RStudio que facilitam algumas ações relacionadas a Git.

3.1 POSTAGEM SOBRE COVID-19

Com o atual cenário de pandemia, um dos temas que não poderia ficar de fora é o da covid-19. Como dito antes, um dos objetivos do “ensinaR” é considerar diferentes temas do cotidiano e mostrar/ensinar como o R pode nos ajudar na análise desses temas. Na postagem “Como usar o R para analisar da-dos da Covid-19 no Espírito Santo”, focamos em trazer informações sobre sexo, raça/cor, faixa etária e região, além de diferentes maneiras de apresentar esses resultados, considerando dados do Espírito Santo que podem ser obtidos em https://coronavirus.es.gov.br/painel-covid-19-es. Na pos-tagem é mostrado como utilizar diversas funções para fazer tratamentos das variáveis, gerar gráficos, construir agrupamentos de categorias e gerar novas variáveis que podem ser utilizadas nas análises. Também é discutido como tratar eventuais “problemas” que podem surgir no meio do caminho. A estru-tura da postagem é bem direta, em que comentamos o que iremos fazer/resolver, mostramos o código do R com as funções e descrevemos detalhadamente o que estamos interessados. Para os gráficos, por exemplo, fazemos também uma breve interpretação das informações, mas deixamos espaço para os leitores tirarem suas próprias conclusões.

Começamos a postagem mostrando onde baixar e como importar os dados para o R de duas formas diferentes. Depois de importar os dados, fazemos tratamentos de algumas variáveis que iremos utilizar. Mostramos também maneiras de fazer diversos tipos de gráficos com diferentes variáveis, como um gráfico de barras que exibe a quantidade de casos registrados até aquele momento por faixa etária. A Figura 4 mostra um pedaço da postagem, em que conseguimos exemplificar bem a nossa aborda-gem. Nesse momento já ao final do texto, tendo explicado anteriormente sobre o ggplot2 e sobre tratamento de variáveis, focamos então em mostrar as informações de uma forma diferente, com gráfi-cos agrupados.

De forma geral, esperamos que após a leitura dessa postagem as pessoas possam ter uma ideia de como obter uma base de dados públicos e de como utilizar diversas funções do R de maneiras diferentes. Inclusive espera-se que essas pessoas possam acessar a postagem posteriormente para buscar como certas funções podem ser utilizadas nesse contexto.

4. CONCLUSÕES

Nessa era de ciência de dados, o R se mostra como um grande aliado para se analisar os mais diversos tipos de dados. Conforme o livro de Grolemund e Hadley [1] mostra, o R pode ser utilizado para as mais variadas tarefas essenciais no cotidiano de uma pessoa que deseja se tornar cientista de dados. O projeto "ensinaR" tem o objetivo de tornar o acesso a esse conhecimento mais fácil, a partir de postagens e vídeos, considerando temas interessantes e relevantes. Entendemos que é possível ter um primeiro contato com a linguagem de uma maneira mais leve e que isso pode ajudar a aumentar o interesse pelo uso das ferramentas que o R oferece.

5. AGRADECIMENTOS

O projeto "ensinaR" agradece ao apoio da Pró-Reitoria de Extensão da UFES através de bolsa cedida, o que possibilitou a dedicação da aluna Flavia de Jesus ao projeto.

(5)

Figura 4: Exemplo de material colocado em entradas de blog.

REFERÊNCIAS

[1] G. Grolemund and H. Wickham. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly, 2017.

[2] R Core Team. R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria, 2021.

[3] H. Wickham. ggplot2: Elegant Graphics for Data Analysis. Springer-Verlag New York, 2016. [4] H. Wickham and J. Bryan. usethis: Automate Package and Project Setup, 2021. R package version

2.0.1.

[5] H. Wickham, R. François, L. Henry, and K. Müller. dplyr: A Grammar of Data Manipulation, 2021. R package version 1.0.5.

Referências

Documentos relacionados

The SUnSET bovine spermatozoa results demand the use of other translation elongation inhibitors, namely emetine, in place of cycloheximide, a competitive inhibitor of the

Por último, temos o vídeo que está sendo exibido dentro do celular, que é segurado e comentado por alguém, e compartilhado e comentado no perfil de BolsoWoman no Twitter. No

No entanto, as perdas ocasionadas na cultura do milho em função da interferência imposta pelas plantas daninhas têm sido descritas como sendo da ordem de 13,1%, sendo que em casos

Realizar a manipulação, o armazenamento e o processamento dessa massa enorme de dados utilizando os bancos de dados relacionais se mostrou ineficiente, pois o

Este efeito é equivalente à aplicação de momentos flectores segundo as direcções principais de inércia do elemento (as quais fazem um ângulo de 45° com a direcção do

O primeiro conjunto de artigos, uma reflexão sobre atores, doenças e instituições, particularmente no âmbito da hanse- níase, do seu espaço, do seu enquadramento ou confinamen- to

Graduado em Ciências Econômicas e com mestrado em Finanças e Análise de Investimentos da Pontifícia Universidade Católica de Rio de Janeiro – PUC-RJ, exercendo

Mean percentage of individuals from different species of Pinus with damage caused by Brown- capuchin monkeys (Sapajus nigritus) in 169 sample plots located in