Estatística Descritiva
Tabela
Gráficos
Números
s
x , s
2,
s, m
o,
Q
1, Q
2, Q
3,
...etc.
12.
2. Gráficos
Gráficos
Estatística Descritiva
Estatística Descritiva
As representações gráficas de tabelas de distribuições de frequência
As representações gráficas de tabelas de distribuições de frequência
permitem que se tenha uma
rápida e concisa visualização da
distribuição da variável
.
A utilização de gráficos para ilustrar os resultados de uma pesquisa
sempre é recomendável.
A construção de gráficos
depende muito da habilidade artística de
cada um
!!!
3
Figura 1. Modelo de gráfico Cabeçalho
Toda figura (ou gráfico) quando colocada em um trabalho deve ser citado pelo seu número
ANTES de ser apresentada(o) no texto!
Se colocou um gráfico no texto precisa escrever algo sobre ele!
Recomendações
Recomendações
::1) Devem ser claros e simples, atraindo a atenção e inspirando confiança; 2) Servem para realçar certos aspectos importantes de uma pesquisa;
3) Devem ser de tamanho adequado à sua publicação em revistas, periódicos, cartazes, livros, etc.;
4) Devem sempre ter um título completo, o qual deve ser colocado na parte inferior do 4) Devem sempre ter um título completo, o qual deve ser colocado na parte inferior do gráfico;
5) Devem ser construídos numa escala que não desfigure os fatos ou as relações que se deseja destacar;
6) Devem ser mais largos do que altos;
7) Seus eixos sempre ser especificados (dar nome) e graduados (criar escala);
8) Quando os dados não são próprios, deve-se citar a fonte, a qual deve ser colocada na parte inferior do gráfico;
2.1. Gráfico para variáveis
2.1. Gráfico para variáveis
qualitativas
qualitativas
Existem vários tipos de gráficos para representar variáveis qualitativas, Existem vários tipos de gráficos para representar variáveis qualitativas,
contudo, vários são versões diferentes do mesmo princípio. Nos limitaremos em 4 deles:
a)
a) Gráfico de barras
Gráfico de barras
b)
b) Gráfico de
Gráfico de Pareto
Pareto
c)
c) Pictograma
Pictograma
d)
d) Gráfico de setor circular
Gráfico de setor circular
a) Gráfico de barras
Gráfico de barras
(ou retângulo)
OpRU f R 8 M 1 B 10 N 3 Total 22Têm por finalidade comparar grandezas, por meio de retângulos de igual largura, dispostos horizontalmente e com alturas proporcionais às grandezas.
Devemos deixar uma distância entre os retângulos.
Para as variáveis qualitativas ordinais, devemos respeitar a ordem das categorias.
Quando os retângulos são colocados na posição vertical, temos os
gráficos de colunas. A finalidade desse tipo de gráfico é a mesma dos gráficos de barras. 0 2 4 6 8 10 12 R M B N OpRU 0 2 4 6 8 10 12 R M B N OpRU Vertical Horizontal gráficos de barras.
OpRU<- c("R","R","M","R","N","B","R","R","R","N","B", "B","B","R","R","B","B","B","N","B","B","B") tab.opRU<- table(OpRU); tab.opRU
barplot(tab.opRU, horiz=F) barplot(tab.opRU, horiz=T)
# Se deseja as frequências relativas
tab.freq = prop.table(tab.opRU) barplot(tab.freq)
Gráfico de barras
Gráfico de barras
No software R: 7b) Gráfico de
Gráfico de Pareto
Pareto
OpRU f R 8 M 1 B 10 N 3 Total 22É um gráfico de barras ordenadas, das mais
altas para as mais baixas.
Então as categorias da variável ficam ordenadas
de acordo com as frequências.
Usado em gestão de qualidade
0 2 4 6 8 10 12 R M B N OpRU Antes Depois 8
require(qcc) # instalar esse pacote
pareto.chart(tab.opRU)
Pareto chart analysis for tab.opRU
Frequency Cum.Freq. Percentage Cum.Percent. B 10 10 45.454545 45.45455 R 8 18 36.363636 81.81818 N 3 21 13.636364 95.45455 M 1 22 4.545455 100.00000
Gráfico de
Gráfico de Pareto
Pareto
No software R:
c)
Pictogramas
Pictogramas
_ Os símbolos devem ser auto-explicativos;
_ As diferentes quantidades devem expressar-se mediante maior ou menor
número de símbolos;
d) Gráfico de setores
Gráfico de setores
(ou gráfico tipo
gráfico tipo “pizza
pizza” ou “torta
torta”)
R 36% N 14% OpRUDestina-se a representar a composição, usualmente em %, de partes de um todo. Consiste em dividir a área total de um círculo de raio arbitrário (representando o todo) em subáreas (setores) proporcionais às frequências.
O número de setores não deve ser muito grande.
OpRU f fr i R 8 0,364 130,91o M 1 0,045 R 36% M 5% B 45% N 14% OpRU 36% M 5% B 45% B 10 0,455 N 3 0,136 Total 22 1 11
pie(tab.opRU)
Gráfico de setor
Gráfico de setor
B M No software R: N R Para os curiosos: https://www.tutorialspoint.com/r/r_pie_charts.htm2.2. Gráfico para variáveis
2.2. Gráfico para variáveis
quantitativas
quantitativas
Apresenta uma variedade maior de representações gráficas.
a)
a) Diagrama de ramos e folhas
Diagrama de ramos e folhas
b)
b) Gráfico
Gráfico de pontos (+
de pontos (+ outliers
outliers))
c)
c) Gráfico de Haste
Gráfico de Haste
d)
d) Histograma
Histograma
e)
e) Polígono de
Polígono de frequência
frequência
f)
f)
Ogiva
Ogiva (Gráfico de frequência acumulada)
(Gráfico de frequência acumulada)
g)
a)
Ramos e Folhas
Ramos e Folhas
É uma forma de representar a distribuição de uma
variável quantitativa
mantendo seus valores originais.
Foi proposta por Tukey (1977).
Pode ser usado para conjuntos grandes de dados; Dá uma boa idéia da distribuição dos dados; Dá uma boa idéia da distribuição dos dados;
Permite a detecção de valores discrepantes (aberrantes ou outliers) Considere a variável (Z) peso (kg) dos alunos:
Z = {45, 52, 53, 56, 57, 58, 60, 65, 65, 66, 75, 53, 55, 55, 58, 64,
65, 66, 67, 68, 68, 69, 74, 74, 74, 75, 75, 78, 79, 79, 82, 107}
Não existe uma regra fixa para construir o ramo-e-folha.
Ordene os dados: 45, 52, 53, 53, 55, 55, 56, 57, 58, 58, 60, 64, 65, 65, 65, 66, 66, 67, 68, 68, 69, 74, 74, 74, 75, 75, 75, 78, 79, 79, 82, 107.
4
5
5
2
3
3
5
5
6
7
8
8
6
0
4
5
5
5
6
6
7
8
8
9
7
4
4
4
5
5
5
8
9
9
8
2
OBS: Um ramo com muitas folhas significa maior incidência daquele
ramo (realização).
8
2
9
10 7
i) A primeira (o ramo) é colocada à
esquerda de uma linha vertical, esta divide os valores das observações numa determinada unidade.
ii) A segunda (a folha) é
colocada à direita. Cada número representa uma
observação. 15 A idéia básica é dividir cada observação em duas partes:
1) Definir a unidade de medida que dividirá cada valor em duas partes: ramo e folha. Por exemplo:
45 kg ramo = 4 e folha = 5 107 kg ramo = 10 e folha = 7
OBS1: Podemos trucar cada valor omitindo os décimos, por exemplo: 69,1 kg = 69 kg ramo = 6 e folha 9
69,5 kg = 69 kg ramo = 6 e folha 9
Passos para a construção de um diagrama de ramos e folhas
Passos para a construção de um diagrama de ramos e folhas
2) Escrever os ramos em ordem crescente verticalmente e passar uma linha vertical à direita deles.
3) Associar cada folha ao respectivo ramo;
4) Ordenar, em cada ramo, as folhas em ordem crescente da direita para esquerda. OBS2: Podemos trucar cada valor considerando como folha 2
algarismos, por exemplo: 69,1 kg ramo = 6 e folha 91
12 0 1 9 13 0 1 6 7 14 3 4 4 8 9 15 1 1 5 5 8 16 0 1
Os valores são referentes ao preço de um determinado produto em vários
estabelecimentos:
Exercício
Exercício
14,80 18,20 13,60 15,50 12,00 13,70 17,00 16,00 17,30 14,40 16,10 26,80 12,10 15,50 16 0 1 17 0 3 18 2 19 3 20 9 21 22 23 24 25 26 8 17 17,00 12,90 20,90 19,30 14,40 15,10 13,10 15,50 14,30 15,10 15,80 13,00 14,90Interpretação:
• Distribuição assimétrica de preços; • Grande variabilidade;
• Preço típico entre 13 e 15;
preco<- c(14.80,18.20,13.60,15.50,12.00,13.70,16.00,17.30,14.40, 16.10,26.80,12.10,12.90,20.90,19.30,14.40,15.10,13.10, 15.50,14.30,15.10,15.80,13.00,14.90,17.00)
stem(preco, scale=3)
The decimal point is at the |
12 | 019 13 | 0167 14 | 34489 15 | 11558
Gráfico de ramos e folhas
Gráfico de ramos e folhas
No software R: 19 15 | 11558 16 | 01 17 | 03 18 | 2 19 | 3 20 | 9 21 | 22 | 23 | 24 | 25 | 26 | 8
OBS:
OBS:
Em geral, existem grandes intervalos vazios entre as observações
extremas e grupo onde se encontram a maioria dos dados.
A detecção de intervalos vazios e observações extremas é importante
Observações discrepantes
Observações discrepantes
(aberrantes
aberrantes, ou Outliers
Outliers)
São observações cujos valores estão distintamente abaixo ou acima da
maioria das demais observações.
A detecção de intervalos vazios e observações extremas é importante
pois nos leva a refletir sobre a qualidade dos dados.
Algum erro de medição ocorreu?
b)
Gráfico de pontos
Gráfico de pontos (ou
gráfico de dispersão unidimensional
gráfico de dispersão unidimensional)
Para pequenos conjuntos de dados
Dá uma boa idéia da dispersão dos dados e da existência de dados discrepantes.
Herbicida A 70 60 80 80 10 50 Herbicida B 70 85 80 70 100 65
Tabela 1. Porcentagens de controle de capim marmelada (Brachiaria plantaginea).
Fonte: Departamento de Horticultura, ESALQ/USP.
Herb_A <- c(70, 60, 80, 80, 10, 50) Herb_B <- c(70, 85, 80, 70, 100, 65) plot(Herb_A, pch=19, ylim=c(0,100)) plot(Herb_B, pch=19, ylim=c(0,100)) No software R: 21 1 2 3 4 5 6 0 20 40 60 80 100 Index H erb_B 1 2 3 4 5 6 0 20 40 60 80 100 Index H erb_A
Há algum dado aparentemente discrepante? Em caso afirmativo, cite uma possível causa.
Você eliminaria esse(s) dado(s)? Qual herbicida você adotaria?
Algumas variações do gráfico de pontos
Algumas variações do gráfico de pontos
Os valores são representados por pontos ao longo da reta (provida de uma escala)
Considere a variável Z: n.o de disciplinas em que o aluno foi reprovado. Z = {2, 0, 0, 2, 2, 5, 0, 2, 1, 2, 2, 4, 0, 3, 2, 2, 0, 3, 2, 3, 1, 4}
9
Indicado para
pequenos
conjuntos de dados
1 2 3 4 5 0 5 2 9 3 2 1 1 2 3 4 5 0 0 1 2 3 4 5 Z 5 9 3 2 1Valores repetidos são acompanhados por um número que indica as
repetições.
Valores repetidos são “empilhados”, um em cima do
outro.
Apresentar o ponto mais alto da pilha
Z Z
c)
Gráfico de Hastes
Gráfico de Hastes (ou Bastões)
(ou Bastões)
_ Bastante utilizado para representar dados não-agrupados em classes, o que normalmente ocorre com dados discretos.
_Pode ser construído utilizando-se indistintamente as frequências absolutas ou as frequências relativas.
Considere a variável X = n. de irmãos.
Xi fi 0 1 1 6 6 8 10 fr eq uê nci a ab so lut a 23 1 6 2 12 3 2 6 1 0 2 4 n. irmãos fr eq uê nci a ab so lut a 0 1 2 3 6 irmaos<- c(1, 2, 2, 2, 6, 2, 3, 2, 2, 2, 1, 3, 1, 2, 1, 2, 2, 1, 2, 2, 1, 0) tab.irmaos<-table(irmaos) plot(tab.irmaos) No software R:
Podemos
aproximar
aproximar uma variável contínua por uma variável
uma variável contínua por uma variável
discreta
discreta
.
Isto pode ser feito supondo-se que todas as observações em
determinada classe são iguais ao ponto médio desta classe.
Para
conjuntos de
dados grande
Com a tabela assim construída podemos representá-la por um gráfico
de barras, setores ou de dispersão unidimensional.
Inconveniente
: se perde muita informação da variável contínua.
Uma alternativa a ser usada nestes
casos é o gráfico histograma.
d)
Histograma
Histograma
• Utilizados para representar as distribuições de freqüência.
• Dão uma boa idéia do formato da distribuição dos dados.
Tabela 1. Distribuição de frequência dos pesos dos alunos da UFSCar
Peso (X)
pm
f
f
rf
ra%
%
ac48 |– 55
51,5
1
1/22 = 0,0455 0,0455 4,55 4,5548 |– 55
51,5
1
1/22 = 0,0455 0,0455 4,55 4,5555 |– 62
58,5
7
7/22 = 0,3182 0,3637 31,82 36,3762 |– 69
65,5
8
8/22 = 0,3636 0,7273 36,36 72,7369 |– 76
72,5
2
0,0909 0,8182 9,09 81,8276 |– 83
79,5
4
0,1818 1 18,18 100Total
22
100 25f
8 7
Peso (X)
pm
f
48 |– 55
51,5
1
Tabela 1. Distribuição de frequência dos pesos dos alunos da UFSCar
b.1) Histograma com amplitudes
b.1) Histograma com amplitudes
iguais
iguais
de classes
de classes
O histograma é uma sequência de retângulos postos lado a lado onde cada retângulo
tem como base a amplitude da classe e como altura a frequência (ou a f
r).
7 4 2 1 48 55 62 69 76 83
48 |– 55
51,5
1
55 |– 62
58,5
7
62 |– 69
65,5
8
69 |– 76
72,5
2
76 |– 83
79,5
4
Total
22
XHistograma
Histograma
pesos<- c(48, 55, 55, 58, 58, 58, 59, 60, 62, 62, 62, 63, 64, 65, 66, 68, 70, 75, 80, 80, 82, 83)
hist(pesos, freq=T, breaks = "Sturges")
Histogram of pesos
6
Vantagem do gráfico de ramos Vantagem do gráfico de ramos
e folhas sobre o histograma e folhas sobre o histograma::
não perdemos (ou perde-se No software R: 27 pesos F req uen cy 50 60 70 80 0 1 2 3 4
5 não perdemos (ou perde-se
pouca) informação sobre os dados em si.
A escolha do número de linhas do ramo-e-folha é equivalente à escolha do número de classes de
f
8
É um gráfico que se obtém unindo por uma poligonal os pontos correspondentes
à frequência das diversas classes, centradas nos respectivos pontos médios.
Para se obter as interseções do polígono com o eixo, cria-se, em cada extremo
do histograma, uma classe de frequência nula.
Peso (X) pm f
Tabela 1. Distribuição de frequência dos pesos dos alunos da UFSCar
e)
e)
Polígono de
Polígono de frequência
frequência
7 4 2 1 48 55 62 69 76 83 X Peso (X) pm f 48 |– 55 51,5 1 55 |– 62 58,5 7 62 |– 69 65,5 8 69 |– 76 72,5 2 76 |– 83 79,5 4 Total 22
ff)
) Curva de
Curva de frequências
frequências
A partir do polígono de frequências pode-se representar contornos mais suaves, utilizando curvas para chegar a uma representação de curva de frequência.
set.seed(14)
x <- rchisq(100, df = 4)
hist(x, freq=FALSE, ylim=c(0, 0.3), main="Distrib. Qui-quadrado com v=4") curve(dchisq(x, df = 4), col = 2, lty = 2, lwd = 2, add = TRUE)
Distrib. Qui-quadrado com v=4 No software R: 29 x D en si ty 0 5 10 15 0. 00 0. 1 0 0. 20 0 .30
Estas curvas serão utilizadas para entender algumas propriedades presentes no estudo das medidas de posição e
g)
Ogiva
Ogiva
(ou gráfico de frequência acumulada)
É o gráfico representativo de uma distribuição acumulada de frequências. Ou
seja, são gráficos construídos a partir das frequências acumuladas.
n. de al un os 12 16 20 24 Frequências acumuladas decrescente. Idade n. de al un os 0 2 4 6 8 12 18 22 26 30 34 38 42 Interpretação:
Nota-se que não existem alunos com idade inferior a 18 anos enquanto que abaixo de 34 anos existem 20 alunos.
Exemplo: Exemplo: Dados de idade: Dados de idade: X ={20, 26, 18, 25, 35, 20, 29, 23, 20, 20, 20, 30, 18, 37, 25, 20, 21, 25, 24, 19, 21, 22} Dados ordenados: Dados ordenados: X ={18, 18, 19, 20, 20, 20, 20, 20, 20, 21, 21, 22, 23, 24, 25, 25, 25, 26, 29, 30, 35, 37}
Tabela Distribuição de frequência da idade de 22 alunos da UFSCar
Gráfico de frequência acumulada
Gráfico de frequência acumulada
Considere as classes com amplitude 4, iniciando na idade de 18 anos e terminando na idade de 42 anos.
Valores: 18 19 20 21 22 23 24 25 26 29 30 35 37 Freq: 2 1 6 2 1 1 1 3 1 1 1 1 1 X f fa 18 |–| 22 12 12 22 –| 26 6 18 26 –| 30 2 20 30 –| 34 0 20 34 –| 38 2 22 38 –| 42 0 22 Total 22
da idade de 22 alunos da UFSCar
OBS: Sempre considerar fechado
o limite superior!
X f fa 18 |–| 22 12 12 22 –| 26 6 18 26 –| 30 2 20 30 –| 34 0 20 34 –| 38 2 22 38 –| 42 0 22
Tabela Distribuição de frequência da idade de 22 alunos da UFSCar
1
6
20
24
Consta de uma poligonal ascendente
formada ligando-se os pontos de coordenadas (LSi; fa(i)), onde LSi é o limite superior da classe
i e fa(i) é a frequência acumulada até a classe i.
Gráfico de frequência acumulada
Gráfico de frequência acumulada
38 –| 42 0 22 Total 22 Idade n. de al uno s 0 2 4 6 8 12 1 6 18 22 26 30 34 38 42
O ponto inicial desse gráfico é o limite inferior do primeiro intervalo, com frequência acumulada zero, pois não existe qualquer valor inferior a ele.
Gráfico de ogiva
Gráfico de ogiva
20 25 30 35 40 0 5 10 15 2 0 n. d e al u nos X<- c(18,22,26,30,34,38,42) Y<- c( 0,12,18,20,20,22,22) # Gráfico simplesplot(X,Y, type='l', xlab='Idade', ylab='n. de alunos') points(X,Y) No software R: 33 Idade n. d e al u nos 0 4 8 1 2 16 20 24 18 22 26 30 34 38 42 Idade # Gráfico elaborado:
plot(c(18,42), c(0,24), type='n', axes=F, xlab='Idade', ylab='n. de alunos') axis(2, at=seq( 0,24,2));
axis(1, at=seq(18,42,4))
points(X,Y, cex=.8,type='l', lwd=2, col='red') points(X,Y, cex=.8, pch=19)
Construindo um gráfico de ogiva
Construindo um gráfico de ogiva
1)
Construa uma distribuição de frequência que tenha uma coluna para as
frequências acumuladas (f
a);
2)
Especifique as escalas horizontal e vertical. A escala horizontal consiste
dos limites superiores de classe, enquanto a vertical mede as frequências
acumuladas;
3)
Marque os pontos em ordem, da esquerda para a direita;
4)
O gráfico deve começar no limite inferior da primeira classe (cuja
frequência acumulada é zero) e deve terminar no limite superior da última
classe (cuja frequência é igual ao tamanho da amostra).
h)
Gráfico de linhas
Gráfico de linhas
C o m priment o 40 60 1Usados, sobretudo, na representação de séries temporais. É um gráfico, cujos os dados são observados em instantes de tempo diferentes, sendo estes ligados por segmentos.
Tempo
20
50 100 150
OBS: Espera-se que exista relação entre as observações em
instantes de tempos diferentes.
35
Esse gráfico também pode receber o nome de gráfico de
perfis, quando se trata da observação de um indivíduo
Desafio
Desafio
f
8 7
4
Onde se concentra a maior ocorrência dos dados?
f
3 4
2
CUIDADO: amplitudes
CUIDADO: amplitudes desiguais!!!desiguais!!!
2 1 48 55 62 69 76 83 X 37 2 1 48 55 62 76 80 X
Nesse caso temos que tomar alguns cuidados quanto à análise
b.2) Histograma com amplitudes
b.2) Histograma com amplitudes
desiguais
desiguais
de classes
de classes
É comum o uso de classes com amplitudes desiguais no
agrupamento de dados em tabelas de distribuição de frequência.
f 4 f/a 0,43 0,50 3 2 1 48 55 62 76 80 X 0,29 0,43 0,14 48 55 62 76 80 X
Em classes em que as amplitudes são maiores, espera-se que mais elementos caiam nessa classe, mesmo que a
a) Complete a tabela para construir um histograma para a variável
distribuição das rendas das pessoas com 10 anos de idade ou mais na
região sudeste do Brasil, considerando os dados:
Variável (Renda) f fr= f /n Amplitude (a) Densidade de freq. (f/a) Densidade de freq. relativa (fr/a) 0 |– ½ 1,09 0,0329 0,5 2,180 0,0658 ½ |– 1 5,62 0,1695 0,5 11,24 0,3390
Tarefa
Tarefa 1
1
½ |– 1 5,62 0,1695 0,5 11,24 0,3390 1 |– 2 7,25 0,2187 1,0 7,250 0,2187 2 |– 3 5,04 0,1520 1,0 5,040 0,1520 3 |– 5 5,55 0,1674 2,0 2,775 0,0837 5 |– 10 5,02 0,1514 5,0 1,004 0,0303 10 |– 20 2,33 0,0703 10,0 0,233 0,00703 20 1,25 0,0377 0 0 Total 33,15 39Tarefa
Tarefa 1
1
Construa o histograma para o exemplo anterior utilizando:
b) Intervalos de
classes desiguais
e a
frequência relativa
(
f
r)
c) Intervalos de
classes desiguais
e a
densidade de frequência relativa
(
f
r/a
)
1)
Construir a coluna que indica as amplitudes (a) das classes, ou seja, a(i) será a amplitude da i-ésima classe.2)
Construir uma coluna das densidades de frequências em cada classe, que é obtida dividindo as frequências f pelas amplitudes a ou seja, a medida que indica qual a concentração por unidade da variável. Para compreender a distribuição, estes dados são muito mais informativos do que as f3)
De modo análogo, pode-se construir a densidade da proporção (ou porcentagemHistograma com intervalos de
Histograma com intervalos de
classes desiguais
classes desiguais
3)
De modo análogo, pode-se construir a densidade da proporção (ou porcentagem por unidade da variável) que é calculada como: fr/a, sendo fr= f /n. A interpretação para fr /a é muito semelhante àquela dada para f/a4)
Para a construção do histograma, basta lembrar que a área total deve ser igual a 1 (ou 100%), o que sugere usar no eixo das ordenadas os valores de fr /a ,representando melhor a distribuição dos dados.
41
Logo, a altura da i-ésima coluna deverá ser igual à
Construa um histograma e um polígono de frequências para os dados da
Tabela 2.
Utilize a regra: k=n
para determinar o número de classes.
Classifique a distribuição quanto à simetria e quanto ao número de “picos”.
Tabela 2. Diâmetros médios, em cm, de Pinus elliotti com 14 anos (amostra de 25 árvores)