Estatística
Medidas Descritivas
Gustavo Costa2009.2
Tipos
• Medidas de
Posição
– Médias e Separatrizes
• Medidas de
Dispersão
(variação)
– Amplitudes, desvios e variância
• Medidas de
Assimetria
• Tendem a estar no meio da distribuição
– Médias
• Aritmética • Geométrica • Quadrática • Harmônica
– Mediana
– Moda
Medidas de tendência central
i i i f x x
f
⋅ =∑
∑
x
• Simples: Ponderada:
• Para dados agrupados em classes a média é calculada como a média ponderada dos pontos médios de cada classe usando suas respectivas frequências absolutas.
n
i i 1
x x
n
= =
∑
i i
i
f m x
f
⋅ =
∑
∑
n
1 2 n
g= x ⋅x ⋅... x⋅
1 2 n
n h
1 1 1 ... x x x
=
+ + +
• Geométrica
–
• Ex.: aumentos percentuais médios
• Quadrática
–
• Harmônica
–
• Ex.: velocidade média
2 2 2
1 2 n
x x ... x
q
n
+ + +
=
Outras Médias
• Uma empresa produziu nos três primeiros meses do ano 500, 200 e 200 unidades. Qual a produção mensal média?
• Uma empresa aumento sua produção no primeiro bimestre do ano. Em janeiro e fevereiro as taxas foram, respectivamente, 21% e 8%. Qual a taxa média de aumento mensal neste período?
n 1 2
Md x
=
+• Mediana (Md)
– Elemento que ocupa a posição central na
distribuição ordenada, isto é, divide um rol em duas partes iguais de modo que 50% dos valores
observados são inferiores ao valor mediano e 50% superiores a este valor.
n ímpar n par
n n
1
2 2
x
x
Md
2
+
+
=
Mediana
• Moda (Mo)
– Elemento que ocorre com maior frequência.
• Relação entre média, mediana e moda:
– No caso de distribuições unimodais, a mediana está frequentemente compreendida entre a média e a moda (inclusive mais perto da média). Para distribuições pouco simétricas, a mediana é mais recomendada, embora a média seja a mais utilizada, em geral.
• Considere as distribuições: • A: 5,6,6,7,8,9,10,10
– = 7,63 – Md = 7,5
– Mo = 6 e 10 (bimodal)
• B: 5,6,6,7,8,9,10,95
– = 18,23 (sensível a valores extremos) – Md = 7,5
– Mo = 6
• C: 5,6,7,8,9
– = 7 – Md = 7 – Mo = não há
x x x
Exemplos
• Mediana –• n/2: posição do elemento mediano (i: nº da classe) • Moda (Czuber)
–
• i: nº da classe modal (de maior frequência)
i 1 i i i n Fc 2 Md l h
f
−
− = + ⋅
i i 1 i i
i i 1 i i 1
f f Mo l h
(f f ) (f f )
−
− +
− = + ⋅
− + −
– – 52 Total 178,0 52 2
176├180
174,0
50 7
172├176
170,0
43 3
168├172
166,0
40 16
164├168
162,0
24 8
160├164
158,0
16 10
156├160
154,0
6 6
152├156
mi Fci
fi Alturas
Exemplo: calcular , Md e Mo
x
• Observe as seguintes distribuições:
– A: 4,5,6,7,8,9,10 – B: 6,6,6,7,8,8,8
• Ambas apresentam a mesma média: • = 7
• Esta medida não diferencia A de B, para isto usamos as medidas de dispersão ou
variabilidade.
x
Resumo
• São medidas de posição utilizadas para
calcular valores da variável que dividem a
distribuição em partes iguais.
• Tipos:
– Mediana (Md); – Quartis (Qi); – Decis (Di);
• A expressão abaixo é utilizada para
qualquer tipo de separatriz:
–
• O parâmetro P depende do tipo de separatriz e assume os valores:
–
• O valor de k é a posição do quantil desejado e o denominador é de acordo com o tipo: 4 para quartil, 10 para decil e 100 para percentil.
i 1 i i
i
P Fc separatriz l h
f
−
− = + ⋅
k n k n k n
, ,
4 10 100
⋅ ⋅ ⋅
Fórmula Padrão
– 52 Total 52 2176├180
50 7
172├176
43 3
168├172
40 16
164├168
24 8
160├164
16 10
156├160
6 6
152├156
Fci fi
Alturas • Queremos dividir estas pessoas em cinco grupos de alturas de modo que os 10% mais baixos sejam o grupo A, os 15% seguintes, o grupo B, os próximos 35%, o grupo C, mais 15% para o grupo D e os 25% restantes formem o grupo E. Quais os limites de alturas para estas categorias?
• Um hospital apresenta em seus leitos um consumo de eletricidade em Kwh, de acordo com a tabela a seguir. Calcule:
a) A média do consumo de energia em Kwh. b) A moda e a mediana.
c) Os quartis Q1, Q2 e Q3
d) Monte um Box-plot que represente essa situação.
e) Faça um comentário dessa análise.
Exemplo
n =
n = ΣΣffii= =
10 10 18 18 26 26 28 28 32 32 15 15 17 17 19 19 8 8 Número Número
de leitos (
de leitos (ffii))
170 |
170 |------190190 9
9
150 |
150 |------170170 8
8
110 |
110 |------130130 6
6
130 |
130 |------150150 7
7
total
total
90 |
90 |------110110
5
5
70 |
70 |------9090 4
4
50 |
50 |------7070 3
3
30 |
30 |------5050 2
2
10 |
10 |------3030 1
1
Consumo
Consumo
de energia (Kwh)
de energia (Kwh)
i
• Retomando o exemplo:
– A: 4,5,6,7,8,9,10 – B: 6,6,6,7,8,8,8
• Ambas apresentam a mesma média: 7
• As medidas de dispersão nos dão
informações que podem caracterizar as
diferenças entre essas duas
distribuições.
Medidas de Dispersão
• As principais medidas de dispersão
que estudaremos são:
– Amplitude total (AT);
– Desvio;
– Desvio Padrão (S e
σ
);
– Variância (S
2e
σ
2).
• Amplitude total (AT):
– Diferença entre os valores extremos da distribuição: AT=max–min.
• Menor amplitude implica em maior homogeneidade;
• Pequena eficácia, pois só utiliza os valores extremos.
• Intervalo interquartílico:
– É o intervalo entre os valores de (Q1;Q3).
• Dentro desta faixa de valores estão 50% dos dados mais centrais da distribuição.
Amplitude total e Intervalo Interquartílico
• Desvio: diferença entre o valor da
variável e a média
–
–
i i
d
= −
x
x
i i
d
=
(x
−
x) 0
=
∑ ∑
• Laplace e o exército francês
– 100.000 soldados;
– 100.000 uniformes, sapatos ,etc.; – Como perceber as diferenças?
– Como medir essas diferenças e reduzir os desperdícios e os custos?
• Primeira solução: tomar os desvios e o
total, mas o total é nulo, então eleva-se
ao quadrado esses desvios.
Surgimento do Desvio Padrão
• Uma grandeza para avaliar se há
discrepâncias (ainda que pequenas são
detectadas) de um conjunto de dados em
relação à média.
–
n
2 i
2 i 1
(x
x)
Var
n
=
−
= σ =
∑
• A unidade da variância (por ex. da
distribuição dos pesos) seria o quadrado da
unidade das medidas (kg
2ao invés de kg).
Isto ajuda na comparação de duas
distribuições, mas tem pouco sentido no
exame da distribuição em si.
• Solução: calculamos sua raiz quadrada.
• Surge o Desvio Padrão procurado por
Laplace.
Defeito da Variância
• Esta medida caracteriza o conjunto de
dados e define um padrão de variação
em relação à média.
•
n
2 i
i 1
(x
x)
n
=
−
σ =
∑
• Quando o desvio padrão e a variância são calculados a partir de uma amostra, são
chamados de amostrais e mudam sua fórmula para:
•
n n
2 2
i i
2 i 1 i 1
(x
x)
(x
x)
S
e S
n 1
n 1
= =
−
−
=
=
−
−
∑
∑
Desvio Padrão (S) e Variância (S2) amostrais
Histogramas e a curva Normal
• Teorema de Chebyshev – para qualquer distribuição:
– Para qualquer número k > 1, pelo menos (1–1/k2)
dos valores de dados se posicionam dentro dos limites de k desvios padrão em relação à média. – Ex: k=2
– 1 – 1/(2)2= 1 - ¼ = ¾ = 0,75 = 75%
1 DP 1 DP
1 DP 1 DP 1 DP 1 DP
99,8% 95,4% 68,2%
• Para distribuições simétricas (quanto mais simétrica, mais preciso).
Teorema da curva Normal
• Coeficiente de variação de Pearson (CV)
– Usado para comparar o grau de concentração dos dados em torno da média de duas séries distintas.
– Pode-se também classificar uma distribuição pelo CV:
• Variabilidade pequena CV<10%, média entre 10% e 20% e grande CV>20%.
• CV
x
σ =
• Relação entre média, mediana e moda
• Coeficientes de Assimetria de Pearson
–
–
• Zona de normalidade (valores normais)
– Para distribuições assimétricas:
AS
x Mo x Mo
C ou AS
S
− −
= =
σ
1 3
AS
3 1
Q Q 2Md C
Q Q + − =
−
(x− σ;x+ σ)
Assimetria
• Curva padrão: Mesocúrtica (K=0,263)
• Curva delgada (pontuda): Leptocúrtica
(K<0,263)
• Curva aberta (achatada): Platicúrtica
(K>0,263)
• Coeficiente de Curtose
–
3 19 1
Q Q
K
2(D D )
− =
−