CAPÍTULO 2 – DESCRIÇÃO DE DADOS – ESTATÍSTICA DESCRITIVA
2.1 – A MÉDIA ARITMÉTICA OU PROMÉDIO
♦ Definição: é igual a soma dos valores do grupo de dados dividida pelo número de valores.
n x X = = ∑ s observaçõe de número x de valores dos Soma
2.2 – MÉDIA ARITMÉTICA PARA DADOS AGRUPADOS
♦ Quando os valores de xi estão agrupados com suas respectivas freqüências absolutas Fi, a média
aritmética ou média amostral é expressa por:
n i F i x X = ∑ 2.3 – MEDIANA X~
♦ Quando colocados em ordem crescente, é o valor que divide a amostra ou população, em duas partes iguais.
2.3.1 – CÁLCULO DA MEDIANA – VARIÁVEL DISCRETA
♦ Determinação da ordem do elemento central que caracteriza a mediana:
♦ Se n for ímpar o elemento central será de ordem 2
1
+
n
♦ Se n for par, a mediana será a média entre os elementos centrais de ordem
2 n
e 1 2+ n
2.3.2 – CÁLCULO DA MEDIANA – VARIÁVEL CONTÍNUA
♦ 1 – Calcula-se a ordem da mediana como sendo 2 n
,
independente de n ser par ou ímpar.
♦ 2 – Pela Fac, identifica-se a classe que contém a
mediana (classe Md) ♦ 3 – Utiliza-se a fórmula: Md F h f n Md l X ∑ − + = 2 ~ 0 50% 100% X~
♦ Onde: == = ∑ = = Md classe da frequência Md classe da amplitude Md classe à anteriores s frequência das soma elementos de número ou amostra da tamanho Md classe da inferior limite Md F h f n Md l 2.4 – QUARTIS
♦ Dividem um conjunto de dados em quatro partes
iguais.
♦ Q1 = 1o Quartil
⇒
deixa 25% dos elementos.♦ Q2 = 2o Quartil ≡ Mediana ⇒ deixa 50% dos elementos.
♦ Q3 = 3o Quartil
⇒
deixa 75% dos elementos. 2.4.1 – Como determinar o 1o e o 3o Quartis.0 Q1 Q2 = Md Q3
♦ Para o 1o Quartil, calcula-se a ordem 4
n e para o 3o
Quartil a ordem será 4 3n
♦ Identifica-se as classes dos quartis pelas Fac.
♦ Fórmulas para determinação dos 1o e 3o Quartis, respectivamente:
∑
−
+
=
∑
−
+
=
3
4
3
3
3
1
4
1
1
Q
F
h
f
n
Q
l
Q
Q
F
h
f
n
Q
l
Q
2.4.2 – EXEMPLO – Dada a distribuição, determinar os quartis Q1 e Q3 e a mediana
(
)
2 ~ Q X = Classes Fi Fac 7 a 17 6 617 a 27 15 21
←
Classe Q1 (contém o 14o elemento) 27 a 37 20 41←
Classe Md (contém o 28o elemento) 37 a 47 10 51←
Classe Q3 (contém o 42o elemento)Σ 56 Passo 1
⇒
n
=
56
( )
o o on
n
n
Q
X
Q
42
4
56
3
4
3
28
2
56
2
14
4
56
4
?
?
~
?
3 1=
=
=
=
=
=
=
=
=
Passo 2
⇒
Determinado os elementos, as classes são identificadas pelas Fac, como mostrado na tabelaanterior.
♦ Passo 3
⇒
Uso das fórmulas para a determinação de Q1 e Q3 e(
)
2 ~ Q X = : ♦ Para Q1 temos:15
;
10
;
6
;
56
;
17
1 1=
=
∑
=
=
Q=
Qn
f
h
F
l
♦ Para(
)
2 ~ Q X = temos:20
;
10
;
21
;
56
;
27
1=
=
=
∑
=
=
Q Mdn
f
h
F
l
♦ Para Q3 temos:10
;
10
;
41
;
56
;
37
1 3=
=
∑
=
=
Q=
Qn
f
h
F
l
♦ Portanto:
38
10
10
41
4
56
3
37
5
,
30
20
10
21
2
56
27
~
33
,
22
15
10
6
4
56
17
3 1=
−
×
+
=
=
−
+
=
=
−
+
=
Q
X
Q
2.5 – DECIS E PERCENTIS♦ Dividem, respectivamente, a série em 10 (Decil) e 100 (Percentil) partes iguais.
2.5.1 – Cálculo para um decil (Di)
♦ Passo 1 – Calcula-se a ordem
10
in
, onde i = 1,2,3,4,5,6,7,8 e 9
♦ Passo 2 – Identifica-se a classe Di pela Fac
♦ Passo 3 – Aplica-se a fórmula:
Conclusão: 25% das observações estão entre 7 e 22,33. 25% das observações estão entre 22,33 e 30,5. 25% das observações estão entre 30,5 e 38. 25% das observações estão entre 38 e 57. D1 D2 D3 D4 D5 D6 D7 D8 D9 0% 10% 20% 30%40%50%60%70%80%90%100%
i i D D i
F
h
f
in
l
D
∑
−
+
=
10
2.5.2 – Cálculo de um percentil (Pi)♦ Passo 1 – Calcula-se a ordem
100
in
, onde i = 1,2,3,....98,99
♦ Passo 2 – Identifica-se a classe Pi pela Fac
♦ Passo 3 – Aplica-se a fórmula:
i i P P i
F
h
f
in
l
P
∑
−
+
=
100
2.6 – MODA♦ É o valor mais freqüente da distribuição.
2.6.1 – Moda de uma distribuição simples, ou seja, sem agrupamento em classes.
P1 P2 P3 P50 P97 P98 P99
♦ Identifica-se facilmente observando-se qual o elemento que apresenta maior freqüência. Por exemplo:
X
i243 245 248 251 307
F
i7
17 23 20 8
⇑
A moda será o elemento 248. Indica-se como:
M
o= 248
2.6.2 – Moda para dados agrupados em classes, ou seja, variáveis contínuas.
♦ Passo 1 – Identificar a classe moda (aquela de maior freqüência)
♦ Aplica-se a fórmula (de Czuber)
h
l
M
o Mo 2 1 1∆
+
∆
∆
+
=
♦ Onde:
=
=
∆
=
∆
=
modal.
classe
da
amplitude
posterior.
nte
imediatame
classe
da
frequência
a
e
modal
classe
da
frequência
a
entre
diferença
anterior.
nte
imediatame
classe
da
frequência
a
e
modal
classe
da
frequência
a
entre
diferença
modal
classe
da
inferior
limite
2 1h
l
o M2.7 – Um exemplo completo – A tabela a seguir mostra as notas de 50 alunos. 60 85 33 52 65 77 84 65 74 57 71 35 81 50 35 64 74 47 54 68 80 61 41 91 55 73 59 53 77 45 41 55 78 48 69 85 67 39 60 76 94 98 66 66 73 42 65 94 88 89 (a) Determine a amplitude total da amostra.
♦ O trabalho ficará mais fácil se construirmos uma tabela, colocando os dados em ordem decrescente.
♦ Utilizando-se o excel, isto não será necessário.
♦ A amplitude total, R, é definida como:
valor
menor
valor
maior
♦ O maior valor será igual a 98, enquanto o menor valor será 33. Assim,
65
33
98
−
∴
=
=
R
R
(b) Número de classes pela fórmula de Sturges.
♦ Para determinarmos o número de classes, K, usaremos a fórmula de Sturges, ou seja:
( )
n
K
=
1
+
3
,
22
×
log
.♦ No nosso caso n = 50. Substituindo na fórmula acima, temos que K = 6,47.
♦ Devemos “arredondar” este valor para o inteiro imediatamente superior. Portanto o número de classes será K = 7
(c) Amplitude das classes.
♦ A amplitude das classes, h, é dado por:
K
R
h
≅
♦ O resultado acima não é um número inteiro e, portanto, devemos “arredondá-lo”. No caso, encontramos h = 10.
♦ Apresentaremos os itens (d); (e); (f); (g) e (h) através de uma tabela.
(d) Quais as classes? (Inicie pelo 30). (e) Freqüências absolutas das classes. (f) Freqüências relativas.
(h) Freqüências acumuladas crescentes. classes Intervalos de Classes Fi f xi Fac xiFi 1 30 a 40 4 0,08 35 4 140 2 40 a 50 6 0,12 45 10 270 3 50 a 60 8 0,16 55 18 440 4 60 a 70 12 0,24 65 30 780 5 70 a 80 9 0,18 75 39 675 6 80 a 90 7 0,14 85 46 595 7 90 a 100 4 0,08 95 50 380 Σ 50 3280
(i) Histograma das freqüências absolutas.
♦ O histograma apresentado abaixo foi construído com o excel.
Histograma
0 2 4 6 8 10 12 14 1 2 3 4 5 6 7 Classes F re q u ê n c ia s A b s o lu ta s(j) Calcular a média amostral.
♦ Para determinarmos a média amostral, foi necessário acrescentar mais uma coluna à tabela acima, contendo o produto
x
iF
i e no final desta coluna, obter a soma, ou seja:∑
x
iF
i♦ A média amostral será dada por:
⇒
=
∴
∑
=
50
3280
X
n
F
x
X
i i6
,
65
=
X
(k) Calcular e interpretar a moda.
♦ A fim de determinarmos a Moda, usaremos a equação:
h
l
M
o Mo 2 1 1∆
+
∆
∆
+
=
♦ Da tabela, vemos que a classe moda, ou seja, a classe de maior freqüência absoluta é a 4a e
l
Mo=
60
.4
8
12
1=
−
=
∆
;∆
1=
12
−
9
=
3
e h = 10. Portanto, a moda será:66
7
40
60
10
3
4
4
60
×
=
+
∴
=
+
+
=
o oM
M
♦ Concluímos pois, que 66 foi a nota mais freqüente do grupo.
(l) Calcular e interpretar a mediana.
♦ Como visto na seção 2.3.2, a ordem da mediana é igual 25, ou seja, 50/2. Da tabela, concluímos que a classe da mediana é a 4a. ♦ Usando a fórmula: Md F h f n Md l X ∑ − + = 2 ~
♦ Onde da tabela vemos que:
(
)
~
65,83
12
10
18
25
60
~
=
+
−
∴
=
X
X
♦ Este resultado nos diz que 50% da amostra têm nota inferior a 65,83
(m) Determinar e interpretar o 1o quartil.
♦ A classe a qual pertence o 1o quartil será
12
,
5
4
50
=
eprocurando na coluna da Fac da tabela, vemos que
♦ Calcula-se Q1 usando a fórmula:
1
4
1
1
Q
F
h
f
n
Q
l
Q
∑
−
+
=
♦(
)
53
,
125
8
10
10
5
,
12
50
1 1∴
=
−
+
=
Q
Q
♦ Este resultado nos diz que 25% dos alunos têm nota inferior a 53,125.
(n) Calcular e interpretar o 55o percentil.
♦ A classe a qual pertence o 55o percentil será
5
,
27
100
50
55
=
×
e da coluna Fac da tabela vemos este
elemento pertence à 4 classe.
♦ Usando a fórmula i i P P i
F
h
f
in
l
P
∑
−
+
=
100
, temos que: ♦(
)
67
,
92
12
10
18
5
,
27
60
55 55∴
=
−
+
=
P
P
♦ Isto significa que 45% do grupo tirou nota superior a este valor.
♦ São medidas que avaliam a dispersão em torno da média, verificando a representatividade da média.
2.8.1 – AMPLITUDE TOTAL
♦ É uma medida de dispersão dada pela diferença entre o maior e o menor valor da série.
min
max
X
X
R
=
−
♦ É de utilização limitada, pois, sendo uma medida que depende apenas dos valores extremos, não capta as possíveis variações entre esses limites.
2.8.2 – VARIÂNCIA AMOSTRAL
♦ Desvio: mede quanto cada valor Xi se afasta em relação à
X
e é dado por:X
X
d
i=
i−
♦ É fácil verificar que
∑
d
i=
0
.♦ A fim de determinar a variância, devemos considerar os quadrados dos desvios, ou seja,
d
i22.8.2.1 – CÁLCULOS DA VARIÂNCIA
X
♦ A variância,
S
2, de uma amostra de n medidas é igual à soma dos quadrados dos desvios, dividida por (n – 1), portanto:(
)
1
1
2 2 2−
∑
−
=
−
∑
=
n
X
X
n
d
S
i i♦ Para dados agrupados, a variância será dada por:
(
)
1
1
2 2 2−
∑
−
=
−
∑
=
n
F
X
X
n
F
d
S
i i i i2.8.2.2 – Fórmulas práticas para o cálculo da variância amostral.
(
)
∑
−
∑
−
=
n
X
X
n
S
i i 2 2 21
1
♦ Para dados agrupados temos que:
(
)
∑
−
∑
−
=
n
F
X
F
X
n
S
i i i i 2 2 21
1
♦ Quanto maior o valor de S2, maior a dispersão dos dados amostrais.
2.8.3 – DESVIO PADRÃO AMOSTRAL
2
S
S
=
Regra Empírica
Para qualquer distribuição amostral com média
X
e desvio padrão S, tem-se que:♦ O intervalo
X
±
S
contém entre 60% e 80% de todas as observações amostrais. A porcentagem aproxima-se de 70% para as distribuições aproximadamente simétrica, chegando a 90% para distribuições fortemente assimétricas.♦ O intervalo
X
±
2
S
contém aproximadamente 95% das observações amostrais para distribuições simétricas e aproximadamente 100% para as de assimetria elevada.♦ O intervalo
X
±
3
S
contém aproximadamente 100% das observações amostrais.Teorema de Tchebycheff
Para qualquer distribuição amostral com média
X
e desvio padrão S, tem-se que:♦ O intervalo
X
±
2
S
contém, no mínimo 75% de todas as observações amostrais.♦ O intervalo
X
±
3
S
contém, no mínimo 89% de todas as observações amostrais.2.8.5 –Exemplo – 1 Calcular a variância e o desvio padrão da seguinte distribuição amostral:
Xi 5 7 8 9 11 Fi 2 3 5 4 2
♦ Construímos um nova tabela a fim de determinarmos os valores de
X
iF
i eX
i2F
i Xi Fi XiFi i iF
X
2 5 2 10 50 7 3 21 147 8 5 40 320 9 4 36 324 11 2 22 242 Σ 16 129 1086♦ Usando a fórmula prática para calcular a variância, temos que:
(
)
∑
−
∑
−
=
n
F
X
F
X
n
S
i i i i 2 2 21
1
( )
2
,
86
16
129
1086
1
16
1
2 2=
∑
−
−
=
S
♦ Cálculo do desvio padrão:
69
,
1
86
,
2
2=
∴
=
=
S
S
S
2.8.6 – Exemplo 2 – Consideremos a distribuição amostral das idades de 50 funcionários de uma empresa e determinemos a variância, o desvio padrão e constatemos as regras para interpretação do desvio padrão.
Intervalo das classes
F
iX
iX
iF
i i iF
X
2 18 a 25 6 21,5 129 2773,5 25 a 32 10 28,5 285 8122,50 32 a 39 13 35,5 461,5 16383,5 39 a 46 8 42,5 340 14450 46 a 53 6 49,5 297 14701,5 53 a 60 5 56,5 282,5 15961,25 60 a 67 2 63,5 127 8064,5 Σ 50 1922 80456,50 ♦ Cálculo da média amostral:44
,
38
50
1922
=
∴
=
∑
=
X
n
F
X
X
i i anos♦ Cálculo da variância amostral:
(
)
∑
−
∑
−
=
n
F
X
F
X
n
S
i i i i 2 2 21
1
18
,
134
50
1922
50
,
80456
1
50
1
2 2=
−
−
=
S
♦ Cálculo do desvio padrão:
anos
58
,
11
18
,
134
2=
=
=
S
S
♦ Verificação das regras para interpretação do desvio padrão
(
28
,
86
;
50
,
02
)
58
,
11
44
,
38
±
=
=
±
S
X
♦ Da tabela, concluímos que 60% das idades observadas estão entre 27 e 50 anos, o que concorda com a regra empírica que estabelece que o referido intervalo deverá conter de 60% a 80% das observações.
(
15
,
28
;
61
,
60
)
58
,
11
2
84
,
3
2
=
±
×
=
±
S
X
♦ Mais uma vez, consultando a tabela, vemos que 98%
das idades observadas estão entre 16 e 62 anos, o que mais uma vez concorda com a regra empírica desde que a distribuição estudada é altamente assimétrica. Esse resultado também confirma o critério de Tchebycheff que define no mínimo 75% da observações para o intervalo
X
±
2
S
.2.9 – COEFCIENTE DE VARIAÇÃO DE PEARSON
♦ A Amplitude total (R), Variância (S2) e o desvio
padrão (S), são medidas absolutas de dispersão. Mostraremos agora uma medida relativa de
dispersão, denominada de Coeficiente de Variação (C.V.), definida como:
100
.
=
×
X
S
V
C
♦ Onde S = desvio padrão amostral
x
= médiaamostral.
2.10 – REGRAS EMPÍRICAS PARA
INTERPRETAÇÕES DO C.V ♦ Se
≥
<
≤
<
dispersão
elevada
%
30
.
dispersão
média
se
têm
%
30
%
15
disperão
baixa
%
15
.
V
C
CV
V
C
2.11 – ESCORE PADRONIZADO (Z)♦ Outra medida relativa de dispersão para uma medida Xi.
S
X
X
Z
i=
i−
♦ Um escore Zi negativo indica que a observação Xi está à esquerda da média, enquanto um escore positivo indica que a observação está á direita da média.
♦ Exemplos: São dados, os médios e os desvios padrões das avaliações de duas disciplinas:
Português Matemática
5
,
6
=
PX
X
M=
5
,
0
2
,
1
=
PS
S
M=
0
,
9
Relativamente às disciplinas Português e Matemática, em qual delas obteve melhor performance um aluno com 7,5 em Português e 6,0 em Matemática?
Determinando es escores padronizados para as notas obtidas temos que:
Português:
0
,
83
2
,
1
5
,
6
5
,
7
=
−
=
PZ
Matemática1
,
11
9
,
0
0
,
5
0
,
6
=
−
=
MZ
Uma vez que o escore padronizado de Matemática é maior que o de Português, o aluno teve melhor performance na primeira.
desvio padrão 0,052 para determinada variável. Verificar se os dados 0,380 e 0,455 podem ser considerados observações da referida variável.
Para Xi = 0,380
63
,
2
052
,
0
243
,
0
380
,
0
=
−
=
iZ
Para Xi = 0,45508
,
4
052
,
0
243
,
0
455
,
0
=
−
=
iZ
Como podemos observar, o dado 0,455 tem escore padronizado maior que 3, isto significa dizer que esta observação foge da dimensão esperada (denominada de outliers) e portanto pode ser descartada. Por outro lado, o dado 0,38, cujo escore padronizado foi igual a 2,63 pode ser considerado um dado normal.
2.12 – MEDIDAS DE ASSIMETRIA
♦ Mede o grau de afastamento de uma distribuição da unidade de simetria, a mediana.
♦ Em uma distribuição simétrica, a média, a mediana e a moda têm os mesmos valores.
A figura acima representa o gráfico de uma distribuição simétrica.
♦ Em uma distribuição assimétrica positiva ou assimétrica à direita, tem-se:
X
X
M
o<
~
<
♦ Como ilustra o gráfico abaixo.
♦ Já para uma distribuição assimétrica negativa, ou assimétrica à esquerda, tem-se:
o
M
X
X
<
~
<
♦ Segundo a ilustração abaixo
♦ Entre as diversas fórmulas para a determinação do coeficiente de assimetria, podemos citar como úteis as duas seguintes: 10 Coeficiente de Pearson:
S
M
X
AS
=
−
0 20 Coeficiente de Pearson: 1 3 3 1~
2
Q
Q
X
Q
Q
AS
−
−
+
=
♦ Se:
<
>
=
negativa
a
assimétric
é
ão
distribuiç
a
que
se
-diz
,
0
positiva
a
assimétric
é
ão
distribuiç
a
que
se
-diz
,
0
simétrica
é
ão
distribuiç
a
que
se
-diz
,
0
AS
AS
AS
2.13 – Exemplo: Dada a distribuição amostral, calcular os dois coeficientes de assimetria de Pearson.
Salário ($1000) 30
a
50 50a
100 100a
150Empregados 80 50 30
Para determinar os dois coeficientes de Pearson, necessitamos calcular a média, a moda, o desvio padrão, os 10 e 30 quartis e a mediana. Assim, temos que:
Classes i
F
X
iX
iF
iX
i2F
iF
i÷
h
F
ac 30a
50 80 40 3200 12800080
÷
20
=
4
82 50a
100 50 75 3750 28125050
÷
50
=
1
130 100a
150 30 125 3750 46875030
÷
50
=
0
,
6
160 Σ 160 10700 878000 ♦ Média:875
,
66
160
10700
=
∴
=
∑
=
X
n
F
X
X
i i ♦ Moda:429
,
41
20
3
4
4
30
2 1 1×
=
+
+
=
∆
+
∆
∆
+
=
l
h
M
o Mo♦ Observe que não sendo as classes de mesma amplitude, foi necessário determinar-se a amplitude relativa, ou seja,
F
i÷
h
. Assim a amplitude relativa da classe modal é igual a 4 de modo que∆
1=
4
e3
1
4
2=
−
=
∆
. ♦ Cálculo da variância:(
)
(
)
1021
,
62
160
10700
878000
159
1
1
1
2 2 2 2 2=
−
=
=
∑
−
∑
−
=
S
n
F
X
F
X
n
S
i i i i♦ Cálculo do Desvio Padrão:
96
,
31
62
,
1021
2=
=
=
S
S
♦ Cálculo deQ
1,
Q
3e
X
~
:40
20
80
0
40
30
1
4
1
1
=
−
+
=
∑
−
+
=
Q
F
h
f
n
Q
l
Q
90
50
50
80
120
50
3
4
3
3
3
=
−
+
=
∑
−
+
=
Q
F
h
f
n
Q
l
Q
50 20 80 0 80 30 2 ~ = + − = ∑ − + =
Md F h f n Md l X♦ Cálculo dos Coeficientes de Assimetria
796
,
0
96
,
31
429
,
41
875
,
66
0=
−
=
−
=
S
M
X
AS
6
,
0
40
90
50
2
90
40
~
2
1 3 3 1=
−
×
−
+
=
−
−
+
=
Q
Q
X
Q
Q
AS
♦ Conclusão:
Como nos dois casos AS > 0, a distribuição é positivamente sim