Conclusões - ETAPAS METODOLÓGICAS - UNIVERSIDADE DO SUL DE SANTA CATARINA GABRIEL BENJAMIM DA S

3 MÉTODO

3.2 ETAPAS METODOLÓGICAS

5.1.4 Conclusões

Como resultado desta monografia foi possível se ter uma noção da demanda gerada pelo denominado Big Data e entender como uma arquitetura de processamento de dados em larga escala funciona, tanto em lote como em tempo real, mesmo que o último não tenha sido explorado na prática.

Com o experimento também foi possível analisar o tempo de execução das ferramentas Apache Hadoop, Apache Spark e Apache Flink. No primeiro experimento com uma fonte de dados de 1 GB, já foi possível perceber uma diferença notável do Spark em relação aos outros 2 concorrentes, neste primeiro experimento o Spark foi em média 186% mais rápido que o Flink, e 251% mais rápido que o pioneiro Hadoop. Já no segundo com uma fonte de dados de 3 GB, o Hadoop foi mais rápido que o Flink, porém ficou consideravelmente atrás do Spark que se mostrou 233% mais veloz em relação ao Hadoop, e 334% em relação ao Flink. No processamento da última fonte de dados de 5 GB, foi possível notar a melhora do Spark na performance de 197% em relação ao Hadoop, para 316% do tempo de execução do Flink.

Assim, foi possível concluir com unanimidade que o Apache Spark obteve um melhor resultado no processamento em lote deste grande montante de dados em um cluster em modo pseudo-distribuido.

Este experimento foi executado em um ambiente mínimo que não proporcionou uma propriedade distributiva de execução, e não houve paralelismo. Fator esse que poderia influenciar diretamente no resultado final.

6 TRABALHOS FUTUROS

Este trabalho disponibiliza diversas oportunidades de se dar continuidade com os experimentos e se explorar mais fundo o poder destas ferramentas aqui estudadas. Uma vez que o potencial de processamento distribuído que essas soluções oferecem não podem ser contempladas devido ao recurso limitados e o curto período para se explorar a fundo todas as ferramentas para que se pudesse ter um resultado conclusivo. Assim, segue os possíveis objetos de estudos que poderiam dar continuidade a esta monografia.

 Criar experimentos voltados para o processamento em tempo real.  Preparar um ambiente distribuído e escalável em um cluster remoto.

 Explorar diferentes configurações de cada plataforma, testando diferentes parâmetros para a alocação de recursos para cada plataforma, e verificar qual foi capaz de produzir um melhor resultado.

REFERÊNCIAS

ABITEBOUL, Serge. Querying Semi-Structured Data. Nova Iorque: ACM, 1997. p. 117- 121. Disponível em: <http://cs.brown.edu/courses/cs295-11/2006/semistructured.pdf>. Acesso em: 07 de maio de 2016.

APACHE. HDFS Architecture Guide. 2016. Disponível em: <

https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html>. Acesso em: 17 de maio de 2016. APACHE. 2016. Disponível em: <http://spark.apache.org>. Acesso em: 04 de junho de 2016. BARLOW, Mike. Real-Time Big Data Analytics: Emerging Architecture. O'Reilly, 2013. Disponível em: <http://www.pentaho.com/assets/pdf/CqPxTROXtCpfoLrUi4Bj.pdf>. Acesso em: 11 de maio de 2016.

BERNARDES, Guilherme de Lima. Desenvolvimento de Software no Contexto Big Data. 2014. 59 f. TCC (Graduação) - Curso de Engenharia de Software, Universidade de Brasília - Unb, Brasília, 2014. Disponível em:

<https://fga.unb.br/articles/0000/5566/TCC_Guilherme.pdf>. Acesso em: 30 mar. 2016. BRASIL, Constituição Federal (1988). Supremo Tribunal Federal, Secretaria de Documentação, 2017. Disponível em:

<http://www.stf.jus.br/arquivo/cms/legislacaoConstituicao/anexo/CF.pdf>. Acesso em: 15 de outubro de 2017.

CHEDE, Cezar. Big Data = volume + variedade + velocidade de dados. IBM, 2012. Disponível em:

<https://www.ibm.com/developerworks/community/blogs/ctaurion/entry/big_data_volume_va riedade_velocidade_de_dados>. Acesso em: 14 de maio de 2016.

CHEVREUIL, Wellington Ramos; ALMEIDA, Fábio Moreira; LIMA, Flavio Eduardo. Usando o Hadoop Distributed File System. 2012. Disponpivel em:

<http://www.univale.com.br/unisite/mundo-j/artigos/54_HDFS.pdf>. Acesso em: 17 de maio de 2016.

Data Science Brazil. Fluxos ETL rápidos com Kafka, Flink e Druid. Disponível em: <http://datasciencebrazil.com/data-science/item/64-fluxos-etl-rapidos-com-kafka-flink-e- druid> Acesso em: 07 de outubro 2017.

DIJCKS, Jean-Pierre. Oracle: Big Data for the Enterprise. 2013. Disponível em:

<http://www.oracle.com/us/products/database/big-data-for-enterprise-519135.pdf>. Acesso em: 10 de maio de 2016.

ECLIPSE, 2017. Disponível em: <https://www.eclipse.org/ide>. Acesso em: 17 de outubro de 2017.

FRIEDMAN, Ellen; Tzoumas Kosta. Introduction to Apache Flink. O'Reilly. 2016. Disponível em: <https://mapr.com/ebooks/intro-to-apache-flink/chapter-2-streaming-first- architecture.html>. Acesso em: 09 de outubro de 2017.

GARTNER. IT Glossary. Disponível em: <http://www.gartner.com/it-glossary/big-data> Acesso em: 08 de maio 2016.

GERHARDT, Engel Tatiana. SILVEIRA, Denise Tolfo. Métodos de Pesquisa. 2009.

Disponível em: <http://www.ufrgs.br/cursopgdr/downloadsSerie/derad005.pdf>. Acesso em: 30 de maio de 2016.

GOOGLE TRENDS. Pesquisa na WEB do Google: Big Data. Disponível em:

<http://www.google.com/trends/explore#q=big%20data> Acesso em: 20 de abril de 2016. GUPTA, Lokesh. Hadoop – Big Data Tutorial. 2015. Disponível em:

<http://howtodoinjava.com/big-data/hadoop/hadoop-big-data-tutorial>. Acesso em: 27 de maio de 2016.

HEERDT, Mauri Luiz. LEONEL, Vilson. Metodologia Científica e da Pesquisa, UNISUL, 2007. Disponível em: <http://busca.unisul.br/pdf/88818_Mauri.pdf>. Acesso em: 29 de maio de 2016.

INMON, William H.; NESAVICH, Anthony. Tapping into Unstructured Data: Integrating Unstructured Data and Textual Analytics into Business Intelligence. Prentice Hall, 2008. INTEL. Big Data in the Cloud: Converging Technologies. 2015. Disponível em:

<http://www.intel.com/content/dam/www/public/us/en/documents/product-briefs/big-data- cloud-technologies-brief.pdf>. Acesso em 15 de maio de 2016.

KANIMOZHI, K., V.; VENKATESAN, M. Unstructured Data Analysis-A Survey. IJARCCE, 2015. Disponível em: <http://www.ijarcce.com/upload/2015/march- 15/IJARCCE%2054.pdf>. Acesso em: 07 de maio de 2016.

KOPP, Michael. NoSQL or RDBMS?: Are we asking the right questions?. 2011. Disponível em: <http://apmblog.dynatrace.com/2011/10/05/nosql-or-rdbms-are-we-asking- the-right-questions>. Acesso em: 15 de maio de 2016.

MAVEN. What is Maven? 2017. Disponível em: <https://maven.apache.org/what-is- maven.html>. Acesso em: 18 de outubro de 2017.

MENDES, Eduardo Ferreira. Instalando Apache Hadoop. 2015. Disponível em:

<https://www.vivaolinux.com.br/artigo/Instalando-Apache-Hadoop>. Acesso em: 27 de maio de 2016.

MYSORE, Dikavar. KHUPAT, Shrikant. JAIN, Shweta. Arquitetura e Padrões de Big Data: Introdução à Classificação e à Arquitetura de Big Data. IBM, 2014. Disponível em: <http://www.ibm.com/developerworks/br/library/bd-archpatterns1>. Acesso em: 11 de maio de 2016.

NESTOROV, Svetlozar; ABITEBOUL, Serge; MOTWANI, Rajeev. Extracting schema from semi-structured data. Nova Iorque: ACM, 1998. p. 295-306. Disponível em:

<http://infolab.stanford.edu/~evtimov/papers/extract-schema.pdf>. Acesso em: 06 de maio de 2016.

PENCHIKALA, Srini. Big Data com Apache Spark. Tradução de Luiz Santana. 2015. Disponível em: <https://www.infoq.com/br/articles/apache-spark-introduction>. Acesso em: 13 de setembro de 2017.

REEDY, Mark. Your Unstructured Data Is Sexy – You Just Don’t Know It. 2015. Disponível em: <http://www.theheadwatersgroup.com/your-unstructured-data-is-sexy>. Acesso em: 7 de maio de 2016.

SAS. Big Data: O que é e por que é importante?. 2016. Disponível em:

<http://www.sas.com/pt_br/insights/big-data/what-is-big-data.html>. Acesso em: 10 de abril de 2016.

SCHNEIDER, Robert. D. Hadoop For Dummies, Special Edition. Mississauga, CAN: John Wiley & Sons Canada, 2012.

SOUBRA, Diya. The 3Vs that define Big Data. 2012. Disponível em:

<http://www.datasciencecentral.com/forum/topics/the-3vs-that-define-big-data>. Acesso em: 11 de maio de 2016.

STEWART, Darin. Big Content: The Unstructured Side of Big Data. 2013. Disponível em: <http://blogs.gartner.com/darin-stewart/2013/05/01/big-content-the-unstructured-side-of-big- data>. Acesso em: 07 de maio de 2016.

SYED, Abdul Raheem; GILLELA, Kumar; VENUGOPAL, C. The Future Revolution on Big Data. IJARCCE, 2013. Disponível em: <http://www.ijarcce.com/upload/2013/june/44- Abdul%20Raheem-The%20Future%20Revolution%20on%20Big%20Data.pdf>. Acesso em: 08 de maio de 2016.

TDW BI Consulting. 3º ENCONTRO DE USUÁRIOS DE BI. Abril de 2014. Rio de Janeiro/São Paulo. Disponível em:

<http://tdwbi.com.br/wp-content/uploads/2014/05/Resumo-do-Encontro-de-BI-Abril-de- 2014-V1.pdf> Acesso em: 11 de maio de 2016.

VIEIRA, Marcos Rodrigues; FIGUEIREDO, Josiel Maimone; LIBERATTI, Gustavo; VIEBRANTZ, Alvaro Fellipe Mendes. Bancos de Dados NoSQL: Conceito, Ferramentas, Linguagens e Estudos de Casos no Contexto de Big Data. 2012. Disponível em:

<http://data.ime.usp.br/sbbd2012/artigos/pdfs/sbbd_min_01.pdf>. Acesso em: 15 de maio de 2016.

WHITE, T. Hadoop: The Definitive Guide. 4th edition. Sebastopol, CA: O’Reilly, 2015. WILSON, Christy. The Difference Between Real Time, Near-Real Time, and Batch Processing in Big Data. 2015. Disponível em: <http://blog.syncsort.com/2015/11/big- data/the-difference-between-real-time-near-real-time-and-batch-processing-in-big-data>. Acesso em: 11 de maio de 2016.

XEXÉO, Geraldo. BIG DATA: Computação para uma sociedade conectada e digitalizada. CIÊNCIAHOJE. Vol.51, p. 19-23, 2013. Disponível em: <http://cienciahoje.uol.com.br/revista-ch/2013/306/pdf_aberto/bigdata306.pdf>. Acesso em: 08 de maio de 2016.

APÊNDICE A – CRONOGRAMA DO PROJETO

Cronograma TCC – Aluno: Gabriel Benjamim da Silva – Orientador: Aran Morales

TCC1 (2016/1)

ATIVIDADE Março Abril Maio Junho Julho

Semanas 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 Pesquisa do tema x x Capitulo 1 x x x x Capitulo 2 x x x x x x Capitulo 3 x x x x Apêndice A x Correções Avaliador Externo x x

Entrega versão final TCC1 x

TCC2 (2017/2)

ATIVIDADE Agosto Setembro Outubro Novembro Dezembro

Semanas 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 Modelagem/Proposta x x x x Entrega da Proposta x Testes Ferramentais x x x Desenvolvimento x x x x Entrega capitulo 4 x Validações e Testes x x

Conclusão e Entrega Pôster x

Defesa x

Possíveis correções e Entrega

No documento UNIVERSIDADE DO SUL DE SANTA CATARINA GABRIEL BENJAMIM DA SILVA (páginas 60-67)