Visualiza¸c˜ ao de dados
Fundamentos, precau¸c˜oes e tendˆencias
Prof. Walmes Zeviani walmes@ufpr.br
Departamento de Estat´ıstica Universidade Federal do Paran´a
Forma¸c˜ao
I Bel. em Agronomia - UFGD (2007).
I MSc. em Estat´ıstica & Experimenta¸c˜ao Agropecu´aria - UFPR (2009).
I Dsc. em Estat´ıstica & Experimenta¸c˜ao Agropecu´aria - UFPR (2013).
Sobre mim
Atua¸c˜ao acadˆemica
I Prof. Adjunto III - Departamento de Estat´ıstica - UFPR (2010 - hoje).
I Ensino:
I Estat´ıstica Computacional II - Bel. em Estat´ıstica).
I Controle de Processos Industriais - Bel. em Estat´ıstica).
I Planejamento e An´alise de Experimentos - PP em Agro. e Prod.
Vegetal.
I Assuntos diversos na Esp. em Data Science & Big Data.
I Projetos e contribui¸c˜oes:
I Ciˆencia do solo, fitopatologia e eng. florestal (recente).
I Treinamentos em R, materiais de apoio e palestras.
Interesses
I Planejamento e an´alise de experimentos.
I Modelos de regress˜ao, principalmente n˜ao linear.
I Manipula¸c˜ao e visualiza¸c˜ao de dados.
I Minera¸c˜ao de texto.
Sobre mim
Contato
I Homepage: http://www.leg.ufpr.br/∼walmes
I Email: walmes@ufpr.br
I Twitter: @walmeszeviani
I Instagram: @walmeszeviani
importante?
O poder de ver al´ em
“The greatest value of a picture is when it forces us to notice what we never expected to see.”
– John Tukey·Estat´ıstico
“Visualization gives you answers to questions you didn’t know you had.”
– Ben Schneiderman ·Cientista da Computa¸c˜ao
Defini¸c˜ao e desafios
I Big data: conjuntos de dados grandes ou complexos em que as abordagens tradicionais de processamento s˜ao inadequadas.
I Desafios: captura,
armazenamento, beneficiamento, consulta, transferˆencia,
visualiza¸c˜ao, an´alise e privacidade.
Figura 1. Os 8 V’s do Big Data.
O fenˆ onemo Big Data
Algumas estat´ısticas
I 90%dos dados no mundo foram gerados nos ´ultimos 2 anos!
I 2.5 bilh˜oesde GB de novos dados ao dia!
I IoT: 1 trilh˜aode dispositivos conectados em 2015.
Figura 2. Infogr´afico sobre tipos de dados em Big Data.
https://www.sciencedaily.com/releases/2013/05/130522085217.htm
Comunica¸c˜ao
“The art of communication is the language of leadership.”
– James Humes
I Acesso/inspe¸c˜ao de dados de forma visualmente disgest´ıvel.
I Gr´aficos bem elaborados s˜ao uma formasimplese poderosade reconhecimento de padr˜oes, extra¸c˜ao de insights e comunica¸c˜ao.
Uma breve passagem pela hist´ oria da
Visualiza¸c˜ ao de Dados
Gráfico de linhas, barras, setores.
1786 - Willian Playfair
Mapeamento e descoberta da fonte de cólera.
1854 - John Snow
Diagamas “coxcomb” do exército britânico.
1858 - Florence Nightingale
Exército de Napoleão marcha para Rússia.
1861 - Charles Minard Graphic methods for presenting facts Visualização para negócios.
1914 - Willard Brinton
Sémiologie graphique
Teoria da vis. e 7 variáveis visuais.
1967 - Jacques Bertin
The visual display of quantitative information Rigor estatístico, clareza, design.
1983 - Edward Tufte
Tese sobre J. Bertin para a era da digital.
1986 - Jock Mackinlay
Charting statistics Boas práticas no Governo Americano.
1952 - Mary Eleanor Spear
Vis. com computadores e vis.
exploratória e confirmatória.
1970s - John Tukey
Recursos para construção de vis.
Vis. interativa e em tempo real Dashboards
Hoje
Medir percepção gráfica e vis. efetiva.
1984 - W. Cleveland & R. McGill
Percepção·Lei de Weber Efetividade gráfica.
2010 - Ronald Rensink
The gammar of graphics Gramática concisa para repres.
componentes gráficos.
1999 - Leland Wilkinson 1900 – 2000
Linha do tempo da Visualiza¸c˜ ao de Dados
Figura 3. William Playfair (esq.), gr´afico de barras (meio) e gr´afico de linhas (dir.).
1786 - Willian Playfair produziu os primeiros gr´aficos de linhas, barras e setores.
Figura 4. John Snow e as ocorrˆencias de ´obito por c´olera em Londres, 1854.
1854 - John Snow (m´edico britˆanico) descobre a fonte transmissora de c´olera com uma representa¸c˜ao no mapa das ocorrˆencias dos ´obitos.
Linha do tempo da Visualiza¸c˜ ao de Dados
Figura 5. Florence Nightingale e os diagramas de “coxcomb”.
Florence Nightingale (enfermeira britˆanica) foi enfermeira volunt´aria na guerra da Crimeia (1853 a 1856).
1858 - Florence Nightingale produziu o “coxcomb diagrams” que mostrou o efeito devastador de doen¸ca sobre o ex´ercito britˆanico.
Figura 6. Charles Minard e a baixas da investida de Napole˜ao sobre o territ´orio da R´ussia.
1861 - Charles Minard (eng. civil francˆes) publicou um diagrama exibindo as baixas no ex´ercito de Napole˜ao na marcha para a Russia.
Linha do tempo da Visualiza¸c˜ ao de Dados
Figura 7. P´aginas de “Graphic Methods for presenting Facts”.
1914 - Willard Brinton (engenheiro americano) publicou o “Graphic Methods for presenting Facts”, o primeiro livro de visualiza¸c˜ao para neg´ocios.
Figura 8. Capa e dobras de “Pratical Charting Statistics”.
1952 - Mary Eleanor Spear publicou o “Pratical Charting Statistics”, boas pr´aticas baseadas em d´ecadas de servi¸co no governo Americano.
Linha do tempo da Visualiza¸c˜ ao de Dados
Figura 9. Jacques Bertin e sua obra em dois idiomas.
1967 - Jacques Bertin (cart´ografo francˆes) publicou “S´emiologie Graphique”, primeiro sobre teoria da visualiza¸c˜ao.
Bertin descreveu 7 vari´aveis visuais (posi¸c˜ao, tamanho, forma, cor, satura¸c˜ao, orienta¸c˜ao e textura) e estabeleceu 2 princ´ıpios: o da expressividade e da efetividade.
Figura 10. John Tukey e a capa de seu livro.
1970s - John Tukey (matem´atico americano) foi o pioneiro no uso de computadores para visualiza¸c˜ao e popularizou o conceito de visualiza¸c˜ao explorat´oria e confirmat´oria.
Tukey foi o criador do gr´afico de caixas e bigodes ouboxplot.
Linha do tempo da Visualiza¸c˜ ao de Dados
Figura 11. Edward Tufte e sua obra.
1983 - Edward Tufte publicou o “The visual display of quantitative
information” combinando rigor estat´ıstico com clareza e princ´ıpios de design.
Figura 12. Ilustra¸c˜ao de formas de percep¸c˜ao gr´afica dos trabalhos de Cleveland e McGill.
1984 - Willian Cleveland e Robert McGill publicaram os primeiros artigos sobre percep¸c˜ao gr´afica, buscando compreender como fazer visualiza¸c˜oes efetivas.
Linha do tempo da Visualiza¸c˜ ao de Dados
Figura 13. Jock Mackinlay e o menu de op¸c˜oes de gr´aficos do Tableau.
1986 - Jock Mackinlay publicou sua Tese de PhD que levou o trabalho de Jacques Bertin para era digital.
Hoje Mackinlay ´e vice presidente de P&D do Tableau.
Figura 14. Leland Wilkinson e as camadas na gram´atica de gr´aficos usado no pacoteggplot2.
1999 - Leland Wilkinson publicou o “The Grammar of Graphics” que estabeleu uma gr´amatica concisa para descrever os componentes de um gr´afico.
Linha do tempo da Visualiza¸c˜ ao de Dados
I 1990s – 2000 - Ocorremv´arias ramifica¸c˜oes de abordagempara visualiza¸c˜ao de dados: abordagens orientadas a computadores, orientadas ao design e a comunidade cient´ıfica.
I 2010s
I A internet social, softwares amig´aveis e baratos, massiva disposi¸c˜ao de dadosdemocratiza a pr´atica da visualiza¸c˜aoem todos os segmentos.
I Cria-se uma atmosfera prop´ıcia paraexperiˆencias.
I Visualiza¸c˜ao n˜ao ´e mais uma prov´ıncia de experts, ´e umfenˆomeno.
I Hoje
I As experiˆencias continuam um amplo espectro de disciplinas.
I Ferramentas para visualiza¸c˜ao continuamente evoluem.
I Representa¸c˜oes gr´aficas mais apropriadas s˜ao desenvolvidas.
I Novas dimens˜oes: anima¸c˜ao, reatividade e interatividade.
I Valocidade e acesso: atualiza¸c˜ao emtempo real, relat´orios web, aplicativos m´oveis, smart thigs.
I Monitoramento comdashboards.
Figura 16. Dashboard feito com o R.
Dados
Constru¸c˜ ao
Como linguagem
I Visualiza¸c˜ao de dados tem um papel cr´ıtico no jornalismo moderno:
jornalismo de dados.
I Data storytelling com visualiza¸c˜ao cria uma impactante resposta na audiˆencia.
Fundamentos
I Conceito de camadas, estabalecimento de hierarquias e preconizar clareza.
I Desafiar o usu´ario a pensar sobre a substˆancia ao inv´es da metodologia, design gr´afico ou tecnologia usada para constru¸c˜ao.
I Encorarar o olho a comparar e identificar padr˜oes, revelar nos dados v´arios n´ıveis de detalhes, de uma vis˜ao ampla at´e estat´ısticas minuciosas.
Qual a diferen¸ca?
I Visualiza¸c˜ao de dados (data graphics).
I Entender tendˆencias, padr˜oes e rela¸c˜oes.
I Instrumentos para raciocinar sobre a informa¸c˜ao.
I Exibi¸c˜ao visual de quantidades medidas mapeadas em atributos visuais, geom´etricos e est´eticos.
I A mesma t´ecnica de visualiza¸c˜ao pode ser reutilizada em muitos dados/contextos.
I Gr´aficos de informa¸c˜ao (info graphics).
I Representa¸c˜ao caracter´ısticas espec´ıficas e informa¸c˜ao processada.
I Instrumentos para comunica¸c˜ao visual da informa¸c˜ao.
I Representa¸c˜ao visual da informa¸c˜ao, para mais ˆenfase ou compreens˜ao.
I Podem ilustrar processos, fluxos, etc.
I O infogr´afico ´e especif´ıco de um contexto.
Ambos podem ser est´aticos, animados ou interativos.
Figura 17. Exemplos de infogr´aficos.
I Absorver informa¸c˜ao de forma r´apida e criativa.
I Compreender rela¸c˜oes, padr˜oes e tendˆencias.
I Identificar e agir sobre emergentes tendˆencias rapidamente.
I Manipular e interagir diretamente com os dados.
I E a nova linguagem para comunica¸c˜´ ao entre pessoas na ind´ustria orientada aos dados.
E para a ´ area acadˆ emica
“Most of us need to listen to the music to understand how beautiful it is.
But often that’s how we present statistics: we just show the notes, we don’t play the music.”
– Hans Rosling
I Melhor compreens˜aodos fenˆomenos.
I Ado¸c˜ao de sensores: muitos dados→ representa¸c˜ao suscinta.
I Gera¸c˜ao e aperfei¸coamento de hip´oteses e modelos conceituais.
I Maior impacto na comunica¸c˜ao dos resultados.
I Cativa¸c˜ao dos revisores e da audiˆencia.
Figura 18. Vari´aveis visuais de Bertin.
Sobre a percep¸c˜ ao/julgamento visual
Como elas permitem julgar/perceber?
I Magnitude.
I Diferen¸cas.
I Associa¸c˜ao.
I Tendˆencias.
I Pertencimento.
Figura 19. As vari´aveis visuais.
I Seletiva - capaz de destacar um caso dos demais?
I Associativa - capaz de indentificar grupos?
I Quantitativa - capaz de dizer que algo ´e 3x que outro?
I Ordenativa - capaz de expressar a ordem, do menor para o maior?
I Diferenciativa/divisiva - quantas diferen¸cas s˜ao poss´ıveis detectar?
https://library.ucalgary.ca/ld.php?content id=25052966
Classifica¸c˜ ao
Selet. Assoc. Quant. Orden. Divis.
Tamanho X X ± X 5/20
Posi¸c˜ao X X X X X
Forma <5 <5 × × 5/X
Satura¸c˜ao X X × X 7/10
Cor X X ± ± 7/10
Anguloˆ X X × × 4/8
Textura X X × × X
https://library.ucalgary.ca/ld.php?content id=25052966
Figura 20. Classifica¸c˜ao das vari´aveis visuais quanto a adequabilidade para cada tipo de percep¸c˜ao.
Landscape de Recursos Gr´ aficos do R
I graphics
I Conjunto de recursos b´asicos e primitivos.
I Extendidos por pacotes comoplotrix egplots.
I Outputs gr´aficos de modelos (res´ıduos, dendrogramas, biplots, etc).
I lattice
I Desenvolvido porDeepayan Sarkar.
I Plotagem multipainel, mapeamento em cores, s´ımbolos, etc.
I E parte do grupo de pacotes recomendados do R.´
I Extendido com alatticeExtra.
O landscape de recursos no R
I ggplot2
I Desenvolvido porHadley Wickham.
I E baseado na´ Grammar of Graphics.
I Plotagem multipainel, mapeamento em vari´aveis visuais, etc, equivalente alattice.
I Por´em, com umasintaxe clara e concisa.
I Tem se tornado cada vez mais popular.
I Visualiza¸c˜ao com anima¸c˜ao, reatividade ou interatividade: plotly, highcharter, googleVis, rCharts,leaflet,iplots,rgl,animation e outros.
https://www.stat.ubc.ca/∼jenny/STAT545A/block90 baseLatticeGgplot2.html
“The human eye is a wonderful device. With a little effort, it can fail to see even the most glaring injustice.”
– Richard K. Morgan ·Altered Carbon
Figura 21. Gr´afico de setores com perspectiva tridimensional gera distor¸c˜ao dos ˆangulos.
Figura 23. Perpectiva 3D e pontos de fuga deformam o sistema de coordenadas e dificultam parceber comprimentos.
uso de gr´aficos (availability bias).
Figura 25. Gr´aficos que violam os princ´ıpios de expressividade e efetividade.
“You can achieve simplicity in the design of effective charts, graphs and tables by remembering three fundamental principles: restrain, reduce, emphasize.”
– Garr Reynolds
“Numbers have an important story to tell. They rely on you to give them a clear and convincing voice.”
– Stephen Few
I Esforce-se para compreender melhor os seus dados.
I Invista em recursos para manipula¸c˜ao e visualiza¸c˜aode dados!
I Na pesquisa, uma apropriada visualiza¸c˜ao impacta mais do que m´ultiplas tabelas, testes e ´ındices de ajuste.
I No R: aprenda os recursos b´asicos, depois v´a para oggplot2.
Pela oportunidade e aten¸c˜ ao, agrade¸co.
Prof. Walmes Zeviani walmes@ufpr.br