• Nenhum resultado encontrado

5. Medidas de dispersão

N/A
N/A
Protected

Academic year: 2021

Share "5. Medidas de dispersão"

Copied!
18
0
0

Texto

(1)

5. Medidas de dispersão

(2)

Quantificação das diferenças entre os valores x1, x2, ..., xn.

Chamadas de medidas de variabilidade (dispersion ou variability).

Redução (drástica) de n observações a um só valor.

(3)

5.1. Amplitude (range)

Medida de variabilidade entre os extremos.

Dados ordenados: x(1)  x(2)  ...  x(n). A = x(n) - x(1) = MAX – min.

Propriedades. (1) A  0. (2) A = 0 se, e somente se, x1 = x2 = ... = xn. 5.2. Amplitude interquartil (interquartile range)

dq = Q3 – Q1.

dq é mais resistente do que A.

Exercícios. (1) Apresente a curva de sensibilidade (CS) de A. (2) Qual a forma da CS de dq?

(4)

Valor atípico (outlier)

Observação afastada do restante dos dados.

Valor extremo, espúrio, aberrante, estranho, discrepante,...

Critérios:

xi < Q1 – 3dq ou xi > Q3 + 3dq: valor atípico severo. Q1 – 3dq < xi < Q1 – 1,5dq ou

Q3 + 1,5dq < xi < Q3 + 3dq: valor atípico moderado.

Q1 – 3dq: barreira externa inferior. Q1 + 3dq: barreira externa superior.

Q1 – 1,5dq: barreira interna inferior. Q1 + 1,5dq: barreira interna superior.

(5)

Gráfico de caixa (box plot)

Gráfico caixa-de-bigodes (box-and-whisker plot)

Valor adjacente inferior: menor valor no conjunto de dados que não é extremo (pode ser igual a x(1)).

Valor adjacente superior: maior valor no conjunto de dados que não é extremo pode ser igual a x(n).

(6)

Gráfico de caixa x = c(1.5, 1.9, 1.7, 1.6, 3.8, 1.3, 2.2, 1.8, 1.3, 0.5, 1.6, 1.4, 1.7, 1.7, 1.9, 0.7, 2.2, 2.3, 2.4, 2.3, 1.8, 2.7, 1.3, 1.7, 2.0, 1.1, 2.1, 1.6, 1.3, 2.2, 1.5, 2.3, 1.1, 1.8, 1.2, 2.0, 1.5, 1.5, 2.6, 1.6, 1.4, 2.2, 1.5, 1.2, 2.0, 1.3, 2.6, 1.9, 1.3, 2.4, 3.2, 1.9, 4.8) > boxplot(x) 1 2 3 4 > boxplot(x, pch = 20) 1 2 3 4

(7)

Gráfico de caixa

> boxplot(x, pch = "*", horizontal = TRUE, xlab = "Espessura (mm)")

> bx = boxplot(x, plot = FALSE) > names(bx)

* *

1 2 3 4

Espessura (mm)

bx$stats: valor adjacente inferior, Q1, Q2,Q3 e valor adjacente superior. bx$n: número de observações.

bx$out: observações extremas.

> bx$stats [,1] [1,] 0.5 [2,] 1.4 [3,] 1.7 [4,] 2.2 [5,] 3.2 > class(bx$stats) [1] "matrix"

(8)

Gráfico de caixa

> boxplot(x, pch = "*", horizontal = TRUE, xlab = "Espessura (mm)") > identify(bx$out, rep(1, length(bx$out)), match(bx$out, x))

* *

1 2 3 4

Espessura (mm)

(9)

Gráfico de caixa

** * *

* *

200 400 600 800 1000 1200 1400 x

O que é possível observar em um gráfico de caixa?

Medida de posição (M = Q2). Medida de dispersão (dq = Q3 –Q1). Simetria. Valores extremos.

(10)

Gráfico de caixa 2 4 6 8 x 0.0 0.1 0.2 0.3 x 0.15 0.20 0.25 0.30 0.35 x * * ***** ** * *** * 0.0 0.5 1.0 1.5 2.0 x

Exercício. Descreva conjuntos de dados correspondentes a cada um dos gráficos.

(11)

5.3. Desvio médio ou desvio absoluto médio (mean absolute deviation)

Obs. (1). A mediana (M) pode ser usada no lugar da média. (2) Não é uma medida resistente.

M = mediana(x1, x2,...,xn).

.

1

1

n i i

x

x

n

dm

5.4. Desvio absoluto mediano (median absolute deviation).

MAD = mediana(|x1 – M|, |x2 – M|, ..., |xn – M|). Obs. MAD é uma medida resistente.

(12)

5.5. Variância (variance)

Obs. (1). Unidade de s2 é a unidade de x2.

(2) Não é uma medida resistente.

(3) Importante em Inferência Estatística.

 

,

2

.

1

1

2 1 2

n

x

x

n

s

i n i

5.6. Desvio padrão (standard deviation)

 

.

1

1

2 1/2 1 2

x

x

n

s

s

i n i

Obs. (1). Unidade de s é a mesma unidade de x. (2) Não é uma medida resistente.

Exercício. Prove que

 

.

2 1 2 1 2

x

n

x

x

x

n i i n i i

 

(13)

Propriedades da variância

P1. Se yi = a + xi, i = 1,...,n, a um número real, então sy2 = s x2.

P2. Se yi = bxi, i = 1,...,n, b um número real, então sy2 = b2 s x2.

P3. Se yi = a + bxi, i = 1,...,n, a e b números reais, então sy2 = b2 s x2

P4. Se as n observações compõem g grupos (g  2), cada um com nj  2 observações e n1 + n2 + ... + ng = n, então Obs. sy = |b| sx. . ) ( ) 1 ( média) à relação em total (variação ) ( ) 1 ( 2 1 1 2 1 2 2 x x n s n x x s n g j j j g j j j n i i       

  

Obs. Variação total = variação intragrupos + variação entre grupos.

(14)

Propriedades da variância

.

1

1 1 1 1

g j j j g g g

x

n

n

n

n

x

n

x

n

x

   j j n m j m j g j x n x 1 , , 1,..., . 1

, 1,..., . 1 1 2 1 , 2 g j x x n s j n m j m j j j  

  

(15)

Exemplo – dados na lâmina 6 x = c(1.5, 1.9, 1.7, 1.6, 3.8, 1.3, 2.2, 1.8, 1.3, 0.5, 1.6, 1.4, 1.7, 1.7, 1.9, 0.7, 2.2, 2.3, 2.4, 2.3, 1.8, 2.7, 1.3, 1.7, 2.0, 1.1, 2.1, 1.6, 1.3, 2.2, 1.5, 2.3, 1.1, 1.8, 1.2, 2.0, 1.5, 1.5, 2.6, 1.6, 1.4, 2.2, 1.5, 1.2, 2.0, 1.3, 2.6, 1.9, 1.3, 2.4, 3.2, 1.9, 4.8) > var(x)

[1] 0.5059652 Exercício. Consulte a ajuda da

função mad (? mad).

> sd(x) [1] 0.7113123 > xb = mean(x) > (dm = mean(abs(x - xb))) [1] 0.498042 > M = median(x) > (MAD = median(abs(x - M))) [1] 0.4

(16)

Exemplo – dados na lâmina 6

> despad = sd(x)

> stripchart(x, method = "stack", pch = 20, xlab = "Espessura (mm)", at = 0)

> boxplot(x, pch = "*", horizontal = TRUE, at = 1, add = TRUE)

> arrows(xb - despad, 1.5, xb + despad, 1.5, code = 3, angle = 90) > points(xb, 1.5, pch = 19)

1 2 3 4

Espessura (mm)

* *

(17)

(2) A, dq, dm, MAD, s2 e s são medidas de dispersão absolutas.

Dependem da unidade de medida de x.

5.7. Coeficiente de variação (coefficient of variation)

Comparações envolvendo duas ou mais variáveis diferentes ou medidas em diferentes escalas (m e cm, p. ex.) não são possíveis.

(1) O desvio padrão (s) está vinculado à média.

Dificuldade em comparar desvios padrão se as médias são muito diferentes.

(1) e (2) apontam a conveniência de medidas relativas.

. | | se , | |    x x s

CV Pode ser dado em %.

Propriedades. (1) CV é adimensional. (2) Não é uma medida resistente.

(3) É instável se média  0. (4) 0  CV < n½.

(18)

5.8. Amplitude studentizada (Studentized range)

Obs. Dividir pelo desvio padrão significa studentizar (ou padronizar) uma medida.

Pode ser dada em %.

Propriedades. (1) Não é uma medida resistente.

.

min

MAX

A

A

( ) (1)

s

s

x

x

s

n s

.

)

1

(

2

A

1

2

(2)

n

n

n

s

Obs. Uma medida de dispersão relativa resistente: dq / M.

Exemplo – dados na lâmina 6

> (cv = sd(x) / mean(x))

[1] 0.3831255

> (As = (max(x) - min(x)) / sd(x))

[1] 6.045165

Referências

Documentos relacionados

Neste presente estudo foi aplicado um questionário sobre a aceitação de um dos seus detergentes comparado a dois concorrentes utilizando a escala ideal , além

No entanto, em uma revisão mais recente de literatura sobre o termo informação, Capurro e Hjørland reconhecem problemas na abordagem histórica para a definição do termo

Você pode querer plantar as suas sementes dando às convidadas o Folheto Mary Kay é um Futuro Brilhante para que o leiam em casa, e depois, fazendo uma reunião com elas para lhes

Concluiu-se que o monitoramento do índice biespectral, em cães submetidos à infusão contínua de propofol e mantidos em ventilação controlada ou espontânea, foi eficaz

IV - decidir sobre a aplicação de uma ou mais das medidas prudenciais preventivas previstas na legislação vigente, a multa cominatória a elas relacionadas e sua eventual

Esta dissertação tem como objetivo geral propor um modelo de avaliação da rede logística para fins de reestruturação, utilizando o método do Fluxo de Caixa Descontado (FCD) para

Única das variáveis a valor de mercado que apresentou resultados significantes para a variável Tamanho, o endividamento de longo prazo a valor de mercado (Y6) também

Os principais objetivos deste projeto são o aumento da rentabilidade da unidade de Vilela, através da imputação de parte dos custos fixos aos produtos