Análise Exploratória
de Dados
Representação Gráfica
Gráficos de Linhas
Fonte: Detecção do Desmatamento em Tempo Real (Deter) Gráficos de Linhas exibem dados contínuos ao longo do tempo, e são ideais para mostrar tendências em dados a intervalos iguais. Em um gráfico de Linha, dados de “categorias” são distribuídos uniformemente ao longo do eixo horizontal, e todos os dados de valores são distribuídos ao longo do eixo vertical, com a observância das escalas horizontal e vertical..
E sc a la s, e sp a ça m e n to s e u n id a d e s 2
Gráficos de Linhas
Gráficos de Linhas
Gráficos de Linhas
Legenda E sc a la s, e sp a ça m e n to s e u n id a d e s 5Gráficos de Linhas
Legenda
G
rá
fi
co
s
d
e
L
in
h
a
s
(d
u
p
la
s
é
ri
e
-e
ix
o
)
E sc a la s, e sp a ça m e n to s e u n id a d e s 7Gráficos de Barras
• Gráficos de Barras ilustram comparações entre itens individuais em um tempo
específico, ou somente comparações entre itens . As categorias são dispostas na vertical e os valores na horizontal. Ainda dentro desse item, devemos
destacar a opção para que os dados fiquem empilhados, visualizando assim, sua relação com o todo. Em alguns casos o uso de recurso 3D pode melhorar a visualização e a observância da escala horizontal é fundamental.
G
rá
fi
co
s
d
e
B
a
rr
a
s
9Gráfico de Barras (sobrepostas –
empilhadas por cento)
Gráficos de Colunas
Assim como o gráfico de Barras, o de Colunas mostram comparações entre itens individuais em um período específico, ou somente comparações entre itens. A diferença básica entre um e outro é que, no gráfico de Colunas suas categorias são dispostas na horizontal e os valores na vertical.
Gráficos de Colunas
Legenda E sc a la , e sp a ça m e n to e u n id a d e 12Gráficos de Colunas
(sobrepostas – empilhadas por cento)
Fonte: BC – Banco Central Legenda
E sc a la , e sp a ça m e n to e u n id a d e 13
Gráfico de Colunas
(justapostas)
Colunas Justapostas
Diagrama de Pareto
•
Wilfredo Pareto enunciou, em 1897, o que passoiu a ser conhecido
como “Princípio de Pareto” que afirma: “80% das dificuldades tem
origem em 20% dos problemas”. Este princípio poderia ser colocado
como a existência de muitos itens triviais mas pouco vitais.
•
O Diagrama de Pareto é gráfico de coluna simples, onde a variável
está em ordem de importância (frequência de ocorrência ou curso)
dos problemas ou defeitos. É bastante utilizado na Engenharia de
Produção e na Gestão de Empresas.
•
O diagrama envolve frequência simples combinada com a
frequência em único gráfico, desta forma temos duas escalas
horizontais.
Diagrama de Pareto
17 80% como delimitador
Diagrama de Pareto
18 Considere os dados sobre o “Número de Defeitos” numa linha de produção de
azulejos.
Diagrama de Pareto
Gráficos de Setores
• O gráfico de Setores (Pizza ou Circular) é apresentado quando se deseja ter a
noção da relação e proporção das partes com o todo. Cada região especificada será determinada através de uma relação proporcional entre o valor percentual (parte pelo todo) e a medida em graus do ângulo de abertura.
• Temos que a área completa da região circular do gráfico de setores corresponde a
um ângulo total de 360º, que em dados percentuais equivale a 100%. Dessa forma, criaremos a seguinte relação: 100% está para 360º. Com base nessa relação
determinaremos qualquer medida de ângulo central em função do valor do dado percentual, ou seja, cada fatia será determina pela expressão:
100% 360 = ݔ% ݕ ܰ 360 = ݂ ݕ ou 20
Gráficos de Setores
Legenda
G
rá
fi
co
s
d
e
S
e
to
re
s
22Gráficos de Setores
Fonte: BC - Banco Central
G
rá
fi
co
s
d
e
S
e
to
re
s
C
u
id
a
d
o
s
24Gráficos de Áreas
• Os gráficos de área são semelhantes aos gráficos de linha, mas exibem cores
diferentes nas áreas abaixo das linhas. Essa exibição colorida distingue os dados com mais clareza.
• Infelizmente, a série de dados com valores menores plotada na parte posterior
de um gráfico de área pode ser ocultada total ou parcialmente atrás da série de dados com valores maiores plotada na frente dele, especialmente que quanto analisamos em ambiente em 3D Legenda E sc a la , e sp a ça m e n to e u n id a d e 25
Gráfico de Área
Gráficos de Áreas em 3D
Uso de Transparência
Gráfico Pictograma
Um pictograma ou pictógrafo (do latim pictu - pintado + grego γράμμα - caracter, letra) é um símbolo que representa um objeto ou conceito por meio de desenhos figurativos. Pictografia é a forma de escrita pela qual ideias são transmitidas
através de desenhos.
Cartograma
Um cartograma é um mapa que mostra informação quantitativa mantendo um certo grau de precisão geográfica das unidades espaciais mapeadas. Este gráfico é empregado quando o objetivo é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.
Legenda de Cores
Cartograma
Legenda de Cores Escala do Mapa 30Cartograma
Cartograma
Pirâmide Etária
Pirâmide etária também conhecida como pirâmide demográfica ou pirâmide populacional é uma ilustração gráfica que mostra a distribuição de diferentes
grupos etários em uma população (tipicamente de um país ou região do mundo), em que normalmente cria-se a forma de uma pirâmide. Esse gráfico é constituído de dois conjuntos de barras que representam o sexo e a idade de um determinado grupo populacional. É baseado numa estrutura etária da população, ou seja, a repartição da população por idades.
Nesse tipo de gráfico, cada uma das metades representa um sexo; a base representa o grupo jovem; a área intermediária ou corpo representa o grupo adulto; e o topo ou ápice representa a população idosa.
Observar o formato
34 Fonte: IBGE – Censos 2000 e 2010
Organograma
35
Organograma é um gráfico que representa a estrutura formal de uma
organização. Os organogramas mostram como estão dispostas unidades funcionais, a hierarquia e as relações de comunicação existentes entre estes.
Fluxograma
• Fluxograma é um tipo de diagrama, e pode ser entendido como uma
representação esquemática de um processo, muitas vezes feito através de
gráficos que ilustram de forma descomplicada a transição de informações entre os elementos que o compõem.
• Podemos entendê-lo, na prática, como a documentação dos passos necessários
para a execução de um processo qualquer. É uma das Sete ferramentas da qualidade. Muito utilizada em fábricas e industrias para a organização de produtos e processos.
• O termo Fluxograma designa uma representação gráfica de um determinado
processo ou fluxo de trabalho, efetuado geralmente com recurso a figuras geométricas normalizadas e as setas unindo essas figuras geométricas.
• Através desta representação gráfica é possível compreender de forma rápida e
fácil a transição de informações ou documentos entre os elementos que participam no processo em estudo.
F
lu
xo
g
ra
m
a
37F
lu
xo
g
ra
m
a
38Gráficos de Ramos e Folhas
• É técnica alternativa para organização e apresentação de dados quantitativos. A
obtenção do diagrama é rápida e fácil. No diagrama de ramos e folhas, cada dado é separado em duas partes: Ramo: é a parte da esquerda e Folhas: é a parte da direita. Em seguida as folhas são colocadas em seus respectivos ramos.
• O ramo-e-folhas é uma representação gráfica dos números que permite organizar os
dados de forma a chamar a atenção para algumas características do conjunto de dados, tais como:
Forma da distribuição (simetria/assimetria)
Dispersão
Existência de outliers
Existência de lacunas entre os dados.
• Pode-se ainda mencionar como características do ramo-e-folhas o fato de possuir
muita semelhança com o histograma, tendo porém a vantagem de exibir o formato da distribuição sem que haja perda de informação.
• A desvantagem do ramo-e-folhas está no fato de ser um gráfico que deve ser
utilizado com conjuntos dados de pequena dimensão.
Ramos e Folhas
68 82 75 43 59 80 69 60 73 54
51 93 70 32 63 61 76 87 65 71
40 Considere o conjunto de dados a seguir
3 3 3 3 2 4 4 4 4 3 5 5 5 5 9 4 1 6 6 8 6 8 6 8 9 0 3 1 5 7 7 7 7 5 3 0 6 1 8 8 8 2 8 2 0 7 9 9 9 9 3 (a) (b) (c) (d) 3 2 4 3 5 1 4 9 6 0 1 3 5 8 9 7 0 1 3 5 6 8 0 2 7 9 3 (e)
Ramos e Folhas
41 Dados com um ponto decimal,
assim:
Lê-se: 28,5
Em função da escala existem duas
observações que parecem ser outliers. O restante dos dados apresenta uma
distribuição que se aproxima muito de uma distribuição normal.
Diagrama de Pontos
• É uma representação alternativa ao histograma para a distribuição de
frequências de uma variável quantitativa. Também conhecido com diagrama de Dispersão Univariado ou scatter chart, scattergram, scatter diagram or scatter
graph ou Scatter plot de uma variável.
• Cada ponto representa uma observação com determinado valor da variável.
Observações com mesmo valor são representadas com pontos empilhados neste valor.
42
Diagrama de pontos para o peso de ursos machos e peso dos ursos fêmeas.
Através da comparação dos diagramas de pontos, podemos ver que os ursos machos possuem pesos menos homogêneos (mais dispersos) do que as fêmeas, que estão concentradas na parte esquerda do eixo de valores de peso.
Diagrama de Dispersão
• Gráficos de Dispersão são comumente usados para exibir e comparar valores numéricos.
• Gráficos de Dispersão têm dois eixos de valores, mostrando um conjunto de dados numéricos ao longo do eixo horizontal e outro ao longo do eixo vertical. Combinam esses valores em pontos de dados únicos e os exibe a intervalos irregulares, ou agrupamentos.
• Também chamado de scatter chart, scattergram, scatter diagram or scatter
graph ou Scatter plot de duas ou mais variáveis.
Diagrama de Dispersão
Gráfico de BoxPlot
(Diagrama dos cinco números – Diagrama da Caixa)
Também conhecido como Diagrama de Box-and –Whister, o Boxplot fornece informações sobre posição, dispersão, assimetria, caudas e valoresdiscrepantes. 45 Cerca ou Cauda Inferior Cerca ou Cauda Superior
Histograma
•
Um histograma é uma representação gráfica da distribuição de
frequências de uma massa de medições (conjunto de dados
qunantitativos, normalmente, é um gráfico de colulas. É uma das
Sete Ferramentas da Qualidade.
•
O histograma é um gráfico composto por retângulos justapostos em
que a base de cada um deles corresponde ao intervalo de classe e a
sua altura à respectiva frequência.
•
Quando o número de dados aumenta indefinidamente e o intervalo
de classe tende a zero, a distribuição de frequência passa para uma
distribuição de densidade de probabilidades (variável contínua) ou
distribuição de probabilidade (variável discreta).
•
A construção de histogramas tem caráter preliminar em qualquer
estudo e é um importante indicador da distribuição de dados.
Podem indicar se uma distribuição aproxima-se de uma função
normal, como pode indicar mistura de populações quando se
apresentam bimodais ou multimodais.
Histograma
Polígonos de Frequência
•
Também conhecidos como ogivas de frequência, os polígonos
são gráficos de linhas que criados com base nas distribuições
de frequência de variáveis quantitativas.
•
É muito útil quando há interesse em comparar graficamente
as distribuições de uma mesma variável contínua em dois ou
mais grupos.
•
As frequências são marcadas sobre perpendiculares ao eixo
horizontal, interligadas pelos pontos médios dos intervalos de
classe.
•
Temos o polígono de frequência simples e o frequência
acumulada (absoluta ou relativo).
Exemplo: Polígono de
frequência simples relativa
49 Próximas aulas...