Estatística II

(1)

CAPÍTULO 2 – DESCRIÇÃO DE DADOS – ESTATÍSTICA DESCRITIVA

2.1 – A MÉDIA ARITMÉTICA OU PROMÉDIO

♦ Definição: é igual a soma dos valores do grupo de dados dividida pelo número de valores.

n x X = = ∑ s observaçõe de número x de valores dos Soma

2.2 – MÉDIA ARITMÉTICA PARA DADOS AGRUPADOS

♦ Quando os valores de x_i estão agrupados com suas respectivas freqüências absolutas Fi, a média

aritmética ou média amostral é expressa por:

n i F i x X = ∑ 2.3 – MEDIANA       X~

♦ Quando colocados em ordem crescente, é o valor que divide a amostra ou população, em duas partes iguais.

(2)

2.3.1 – CÁLCULO DA MEDIANA – VARIÁVEL DISCRETA

♦ Determinação da ordem do elemento central que caracteriza a mediana:

♦ Se n for ímpar o elemento central será de ordem 2

1

+

n

♦ Se n for par, a mediana será a média entre os elementos centrais de ordem

2 n

e 1 2+ n

2.3.2 – CÁLCULO DA MEDIANA – VARIÁVEL CONTÍNUA

♦ 1 – Calcula-se a ordem da mediana como sendo 2 n

,

independente de n ser par ou ímpar.

♦ 2 – Pela Fac, identifica-se a classe que contém a

mediana (classe Md) ♦ 3 – Utiliza-se a fórmula: Md F h f n Md l X       ∑ − + = 2 ~ 0 50% 100%       X~

(3)

♦ Onde:            == = ∑ = = Md classe da frequência Md classe da amplitude Md classe à anteriores s frequência das soma elementos de número ou amostra da tamanho Md classe da inferior limite Md F h f n Md l 2.4 – QUARTIS

♦ Dividem um conjunto de dados em quatro partes

iguais.

♦ Q₁ = 1o Quartil

⇒

deixa 25% dos elementos.

♦ Q₂ = 2o Quartil ≡ Mediana ⇒ deixa 50% dos elementos.

♦ Q₃ = 3o Quartil

⇒

deixa 75% dos elementos. 2.4.1 – Como determinar o 1o e o 3o Quartis.

0 Q1 Q2 = Md Q3

(4)

♦ Para o 1o Quartil, calcula-se a ordem 4

n e para o 3o

Quartil a ordem será 4 3n

♦ Identifica-se as classes dos quartis pelas Fac.

♦ Fórmulas para determinação dos 1o e 3o Quartis, respectivamente:























∑

−

+

=













∑

−

+

=

3

4

3

1

4

1

1 Q

F

h

f

n

Q

l

Q

F

h

f

n

Q

l

Q

2.4.2 – EXEMPLO – Dada a distribuição, determinar os quartis Q1 e Q3 e a mediana

(

)

2 ~ Q X = Classes F_i F_ac 7 a 17 6 6

17 a 27 15 21

←

Classe Q₁ (contém o 14o elemento) 27 a 37 20 41

←

Classe Md (contém o 28o elemento) 37 a 47 10 51

←

Classe Q3 (contém o 42o elemento)

(5)

Σ 56 Passo 1

⇒

n

=

56 ( )

o o o

n

Q

X

Q

42

4

56

3

4

3

28

2

56

2

14

4

56

4 ?

?

~

?

₃ 1

=

Passo 2

⇒

Determinado os elementos, as classes são identificadas pelas Fac, como mostrado na tabela

anterior.

♦ Passo 3

⇒

Uso das fórmulas para a determinação de Q₁ e Q₃ e

(

)

2 ~ Q X = : ♦ Para Q₁ temos:

15 ;

10 ;

6 ;

56 ;

17

1 1

=

∑

=

Q

=

Q

n

f

h

F

l

♦ Para

(

)

2 ~ Q X = temos:

20 ;

10 ;

21 ;

56 ;

27

1

=

∑

=

_Q Md

n

f

h

F

l

♦ Para Q3 temos:

10 ;

41 ;

56 ;

37

1 3

=

∑

=

Q

=

Q

n

f

h

F

l

(6)

♦ Portanto:

38

10

41

4

56

3

37

5 ,

30

20

10

21

2

56

27 ~

33 ,

22

15

10

6

4

56

17

3 1

=













−

×

+

=













−

+

=













−

+

=

Q

X

Q

2.5 – DECIS E PERCENTIS

♦ Dividem, respectivamente, a série em 10 (Decil) e 100 (Percentil) partes iguais.

2.5.1 – Cálculo para um decil (D_i)

♦ Passo 1 – Calcula-se a ordem

10 in

, onde i = 1,2,3,4,5,6,7,8 e 9

♦ Passo 2 – Identifica-se a classe Di pela Fac

♦ Passo 3 – Aplica-se a fórmula:

Conclusão: 25% das observações estão entre 7 e 22,33. 25% das observações estão entre 22,33 e 30,5. 25% das observações estão entre 30,5 e 38. 25% das observações estão entre 38 e 57. D₁ D₂ D₃ D₄ D₅ D₆ D₇ D₈ D₉ 0% 10% 20% 30%40%50%60%70%80%90%100%

(7)

i i D D i

F

h

f

in

l

D













∑

−

+

=

10

2.5.2 – Cálculo de um percentil (Pi)

♦ Passo 1 – Calcula-se a ordem

100 in

, onde i = 1,2,3,....98,99

♦ Passo 2 – Identifica-se a classe Pi pela Fac

♦ Passo 3 – Aplica-se a fórmula:

i i P P i

F

h

f

in

l

P













∑

−

+

=

100

2.6 – MODA

♦ É o valor mais freqüente da distribuição.

2.6.1 – Moda de uma distribuição simples, ou seja, sem agrupamento em classes.

P₁ P₂ P₃ P₅₀ P₉₇ P₉₈ P₉₉

(8)

♦ Identifica-se facilmente observando-se qual o elemento que apresenta maior freqüência. Por exemplo:

X

i

243 245 248 251 307

F

i

7 17 23 20 8

⇑

A moda será o elemento 248. Indica-se como:

M

o

= 248

2.6.2 – Moda para dados agrupados em classes, ou seja, variáveis contínuas.

♦ Passo 1 – Identificar a classe moda (aquela de maior freqüência)

♦ Aplica-se a fórmula (de Czuber)

h

l

M

_o _Mo 2 1 1

∆

+

∆

+

=

♦ Onde:

(9)













=

∆

=

∆

=

modal.

classe

da

amplitude

posterior.

nte

imediatame

classe

da

frequência

a

e

modal

classe

da

frequência

a

entre

diferença

anterior.

nte

imediatame

classe

da

frequência

a

e

modal

classe

da

frequência

a

entre

diferença

modal

classe

da

inferior

limite

2 1

h

l

o M

2.7 – Um exemplo completo – A tabela a seguir mostra as notas de 50 alunos. 60 85 33 52 65 77 84 65 74 57 71 35 81 50 35 64 74 47 54 68 80 61 41 91 55 73 59 53 77 45 41 55 78 48 69 85 67 39 60 76 94 98 66 66 73 42 65 94 88 89 (a) Determine a amplitude total da amostra.

♦ O trabalho ficará mais fácil se construirmos uma tabela, colocando os dados em ordem decrescente.

♦ Utilizando-se o excel, isto não será necessário.

♦ A amplitude total, R, é definida como:

valor

menor

valor

maior

(10)

♦ O maior valor será igual a 98, enquanto o menor valor será 33. Assim,

65

33

98 −

∴

=

R

(b) Número de classes pela fórmula de Sturges.

♦ Para determinarmos o número de classes, K, usaremos a fórmula de Sturges, ou seja:

( )

n

K

=

1 +

3 ,

22 ×

log

.

♦ No nosso caso n = 50. Substituindo na fórmula acima, temos que K = 6,47.

♦ Devemos “arredondar” este valor para o inteiro imediatamente superior. Portanto o número de classes será K = 7

(c) Amplitude das classes.

♦ A amplitude das classes, h, é dado por:

K

R

h

≅

♦ O resultado acima não é um número inteiro e, portanto, devemos “arredondá-lo”. No caso, encontramos h = 10.

♦ Apresentaremos os itens (d); (e); (f); (g) e (h) através de uma tabela.

(d) Quais as classes? (Inicie pelo 30). (e) Freqüências absolutas das classes. (f) Freqüências relativas.

(11)

(h) Freqüências acumuladas crescentes. classes Intervalos de Classes Fi f xi Fac xiFi 1 30 a₄₀ _{4 0,08 35 4} ₁₄₀ 2 40 a₅₀ _{6 0,12 45 10 270} 3 50 a₆₀ _{8 0,16 55 18 440} 4 60 a₇₀ _{12 0,24 65 30 780} 5 70 a₈₀ _{9 0,18 75 39 675} 6 80 a₉₀ _{7 0,14 85 46 595} 7 90 a₁₀₀ _{4 0,08 95 50 380} Σ 50 3280

(i) Histograma das freqüências absolutas.

♦ O histograma apresentado abaixo foi construído com o excel.

Histograma

0 2 4 6 8 10 12 14 1 2 3 4 5 6 7 Classes F re q u ê n c ia s A b s o lu ta s

(12)

(j) Calcular a média amostral.

♦ Para determinarmos a média amostral, foi necessário acrescentar mais uma coluna à tabela acima, contendo o produto

x

_i

F

_i e no final desta coluna, obter a soma, ou seja:

∑

x

_i

F

_i

♦ A média amostral será dada por:

⇒

=

∴

∑

=

50 3280

X

n

F

x

X

i i

6 ,

65 =

X

(k) Calcular e interpretar a moda.

♦ A fim de determinarmos a Moda, usaremos a equação:

h

l

M

_o _Mo 2 1 1

∆

+

∆

+

=

♦ Da tabela, vemos que a classe moda, ou seja, a classe de maior freqüência absoluta é a 4a e

l

_Mo

=

60

.

4

8

12

1

=

−

=

∆

;

∆

₁

=

12 −

9 =

3

e h = 10. Portanto, a moda será:

66

7

40

60

10

3

4

60 ×

=

+

∴

=

+

=

_o o

M

(13)

♦ Concluímos pois, que 66 foi a nota mais freqüente do grupo.

(l) Calcular e interpretar a mediana.

♦ Como visto na seção 2.3.2, a ordem da mediana é igual 25, ou seja, 50/2. Da tabela, concluímos que a classe da mediana é a 4a. ♦ Usando a fórmula: Md F h f n Md l X       ∑ − + = 2 ~

♦ Onde da tabela vemos que:

(

)

~

_65,83

12

10

18

25

60 ~

₌

₊

−

_∴

₌

X

♦ Este resultado nos diz que 50% da amostra têm nota inferior a 65,83

(m) Determinar e interpretar o 1o quartil.

♦ A classe a qual pertence o 1o quartil será

12 ,

5

4

50 =

e

procurando na coluna da Fac da tabela, vemos que

(14)

♦ Calcula-se Q₁ usando a fórmula:

1

4

1

1 Q

F

h

f

n

Q

l

Q













∑

−

+

=

♦

(

)

53 ,

125

8

10

5 ,

12

50

₁ 1

∴

=

−

+

=

Q

♦ Este resultado nos diz que 25% dos alunos têm nota inferior a 53,125.

(n) Calcular e interpretar o 55o percentil.

♦ A classe a qual pertence o 55o percentil será

5 ,

27

100

50

55 =

×

e da coluna Fac da tabela vemos este

elemento pertence à 4 classe.

♦ Usando a fórmula i i P P i

F

h

f

in

l

P













∑

−

+

=

100

, temos que: ♦

(

)

67 ,

92

12

10

18

5 ,

27

60

₅₅ 55

∴

=

−

+

=

P

♦ Isto significa que 45% do grupo tirou nota superior a este valor.

(15)

♦ São medidas que avaliam a dispersão em torno da média, verificando a representatividade da média.

2.8.1 – AMPLITUDE TOTAL

♦ É uma medida de dispersão dada pela diferença entre o maior e o menor valor da série.

min

max

X

R

=

−

♦ É de utilização limitada, pois, sendo uma medida que depende apenas dos valores extremos, não capta as possíveis variações entre esses limites.

2.8.2 – VARIÂNCIA AMOSTRAL

♦ Desvio: mede quanto cada valor X_i se afasta em relação à

X

e é dado por:

X

d

_i

=

_i

−

♦ É fácil verificar que

∑

d

_i

=

0

.

♦ A fim de determinar a variância, devemos considerar os quadrados dos desvios, ou seja,

d

_i2

2.8.2.1 – CÁLCULOS DA VARIÂNCIA

X

(16)

♦ A variância,

S

2, de uma amostra de n medidas é igual à soma dos quadrados dos desvios, dividida por (n – 1), portanto:

(

)

1

2 2 2

−

∑

−

=

−

∑

=

n

X

n

d

S

i i

♦ Para dados agrupados, a variância será dada por:

(

)

1

2 2 2

−

∑

−

=

−

∑

=

n

F

X

n

F

d

S

i i i i

2.8.2.2 – Fórmulas práticas para o cálculo da variância amostral.

(

)

_











∑

−

∑

−

=

n

X

n

S

_i i 2 2 2

1

♦ Para dados agrupados temos que:

(

)













∑

−

∑

−

=

n

F

X

F

X

n

S

_i _i i i 2 2 2

1

♦ Quanto maior o valor de S2, maior a dispersão dos dados amostrais.

2.8.3 – DESVIO PADRÃO AMOSTRAL

2

S

=

(17)

Regra Empírica

Para qualquer distribuição amostral com média

X

e desvio padrão S, tem-se que:

♦ O intervalo

X

±

S

contém entre 60% e 80% de todas as observações amostrais. A porcentagem aproxima-se de 70% para as distribuições aproximadamente simétrica, chegando a 90% para distribuições fortemente assimétricas.

♦ O intervalo

X

±

2 S

contém aproximadamente 95% das observações amostrais para distribuições simétricas e aproximadamente 100% para as de assimetria elevada.

♦ O intervalo

X

±

3 S

contém aproximadamente 100% das observações amostrais.

Teorema de Tchebycheff

Para qualquer distribuição amostral com média

X

e desvio padrão S, tem-se que:

♦ O intervalo

X

±

2 S

contém, no mínimo 75% de todas as observações amostrais.

♦ O intervalo

X

±

3 S

contém, no mínimo 89% de todas as observações amostrais.

(18)

2.8.5 –Exemplo – 1 Calcular a variância e o desvio padrão da seguinte distribuição amostral:

X_i 5 7 8 9 11 Fi 2 3 5 4 2

♦ Construímos um nova tabela a fim de determinarmos os valores de

X

_i

F

_i e

X

_i2

F

_i Xi Fi XiFi i i

F

X

2 5 2 10 50 7 3 21 147 8 5 40 320 9 4 36 324 11 2 22 242 Σ 16 129 1086

♦ Usando a fórmula prática para calcular a variância, temos que:

(

)













∑

−

∑

−

=

n

F

X

F

X

n

S

_i _i i i 2 2 2

1

1 ( )

₂

_,

₈₆

16

129 1086

1

16

1

2 2

₌













∑

−

=

S

♦ Cálculo do desvio padrão:

69 ,

1

86 ,

2

₌

_∴

₌

=

S

2.8.6 – Exemplo 2 – Consideremos a distribuição amostral das idades de 50 funcionários de uma empresa e determinemos a variância, o desvio padrão e constatemos as regras para interpretação do desvio padrão.

(19)

Intervalo das classes

_F

_i

_X

_i

_X

_i

_F

_i i i

F

X

2 18 a 25 6 21,5 129 2773,5 25 a 32 10 28,5 285 8122,50 32 a 39 13 35,5 461,5 16383,5 39 a 46 8 42,5 340 14450 46 a 53 6 49,5 297 14701,5 53 a 60 5 56,5 282,5 15961,25 60 a 67 2 63,5 127 8064,5 Σ 50 1922 80456,50 ♦ Cálculo da média amostral:

44 ,

38

50 1922

=

∴

=

∑

=

X

n

F

X

i i anos

♦ Cálculo da variância amostral:

(

)

_











∑

−

∑

−

=

n

F

X

F

X

n

S

_i _i i i 2 2 2

1

18 ,

134

50 1922

50 ,

80456

1

50

1

2 2

=













−

=

S

♦ Cálculo do desvio padrão:

anos

58 ,

11

18 ,

134

2

=

S

♦ Verificação das regras para interpretação do desvio padrão

(20)

(

28 ,

86 ;

50 ,

02 )

58 ,

11

44 ,

38 ±

=

±

S

X

♦ Da tabela, concluímos que 60% das idades observadas estão entre 27 e 50 anos, o que concorda com a regra empírica que estabelece que o referido intervalo deverá conter de 60% a 80% das observações.

(

15 ,

28 ;

61 ,

60 )

58 ,

11

2

84 ,

3

2 =

±

×

=

±

S

X

♦ Mais uma vez, consultando a tabela, vemos que 98%

das idades observadas estão entre 16 e 62 anos, o que mais uma vez concorda com a regra empírica desde que a distribuição estudada é altamente assimétrica. Esse resultado também confirma o critério de Tchebycheff que define no mínimo 75% da observações para o intervalo

X

±

2 S

.

2.9 – COEFCIENTE DE VARIAÇÃO DE PEARSON

♦ A Amplitude total (R), Variância (S2) e o desvio

padrão (S), são medidas absolutas de dispersão. Mostraremos agora uma medida relativa de

(21)

dispersão, denominada de Coeficiente de Variação (C.V.), definida como:

100 .

=

×

X

S

V

C

♦ Onde S = desvio padrão amostral

x

= média

amostral.

2.10 – REGRAS EMPÍRICAS PARA

INTERPRETAÇÕES DO C.V ♦ Se











≥

<

≤

<

dispersão

elevada

%

30 .

dispersão

média

se

têm

%

30 %

15 disperão

baixa

%

15 .

V

C

CV

V

C

2.11 – ESCORE PADRONIZADO (Z)

♦ Outra medida relativa de dispersão para uma medida Xi.

(22)

S

X

Z

_i

=

i

−

♦ Um escore Z_i negativo indica que a observação X_i está à esquerda da média, enquanto um escore positivo indica que a observação está á direita da média.

♦ Exemplos: São dados, os médios e os desvios padrões das avaliações de duas disciplinas:

Português Matemática

5 ,

6 =

P

X

_M

=

5 ,

0

2 ,

1 =

P

S

_M

=

0 ,

9

Relativamente às disciplinas Português e Matemática, em qual delas obteve melhor performance um aluno com 7,5 em Português e 6,0 em Matemática?

Determinando es escores padronizados para as notas obtidas temos que:

Português:

0 ,

83

2 ,

1

5 ,

6

5 ,

7 =

−

=

P

Z

Matemática

1 ,

11

9 ,

0

0 ,

5

0 ,

6 =

−

=

M

Z

Uma vez que o escore padronizado de Matemática é maior que o de Português, o aluno teve melhor performance na primeira.

(23)

desvio padrão 0,052 para determinada variável. Verificar se os dados 0,380 e 0,455 podem ser considerados observações da referida variável.

Para X_i = 0,380

63 ,

2

052 ,

0

243 ,

0

380 ,

0 =

−

=

i

Z

Para Xi = 0,455

08 ,

4

052 ,

0

243 ,

0

455 ,

0 =

−

=

i

Z

Como podemos observar, o dado 0,455 tem escore padronizado maior que 3, isto significa dizer que esta observação foge da dimensão esperada (denominada de outliers) e portanto pode ser descartada. Por outro lado, o dado 0,38, cujo escore padronizado foi igual a 2,63 pode ser considerado um dado normal.

2.12 – MEDIDAS DE ASSIMETRIA

♦ Mede o grau de afastamento de uma distribuição da unidade de simetria, a mediana.

♦ Em uma distribuição simétrica, a média, a mediana e a moda têm os mesmos valores.

(24)

A figura acima representa o gráfico de uma distribuição simétrica.

♦ Em uma distribuição assimétrica positiva ou assimétrica à direita, tem-se:

X

M

_o

<

~

<

♦ Como ilustra o gráfico abaixo.

♦ Já para uma distribuição assimétrica negativa, ou assimétrica à esquerda, tem-se:

(25)

o

M

X

<

~

<

♦ Segundo a ilustração abaixo

♦ Entre as diversas fórmulas para a determinação do coeficiente de assimetria, podemos citar como úteis as duas seguintes: 10 Coeficiente de Pearson:

S

M

X

AS

=

−

0 20 Coeficiente de Pearson: 1 3 3 1

~

2 Q

Q

X

Q

AS

−

+

=

♦ Se:











<

>

=

negativa

a

assimétric

é

ão

distribuiç

a

que

se

-diz

,

0 positiva

a

assimétric

é

ão

distribuiç

a

que

se

-diz

,

0 simétrica

é

ão

distribuiç

a

que

se

-diz

,

0 AS

AS

(26)

2.13 – Exemplo: Dada a distribuição amostral, calcular os dois coeficientes de assimetria de Pearson.

Salário ($1000) 30

a

_{50 50}

a

_{100 100}

a

₁₅₀

Empregados 80 50 30

Para determinar os dois coeficientes de Pearson, necessitamos calcular a média, a moda, o desvio padrão, os 10 e 30 quartis e a mediana. Assim, temos que:

Classes i

F

X

i

X

i

F

i

X

_i2

F

_i

F

i

÷

h

F

ac 30

a

_{50 80 40 3200 128000}

80 ÷

20 =

4

82 50

a

_{100 50 75 3750 281250}

50 ÷

50 =

1

130 100

a

_{150 30 125 3750 468750}

30 ÷

50 =

0 ,

6

160 Σ 160 10700 878000 ♦ Média:

875 ,

66

160 10700

=

∴

=

∑

=

X

n

F

X

i i ♦ Moda:

429 ,

41

20

3

4

30

2 1 1

×

=

+

=

∆

+

∆

+

=

l

h

M

_o _Mo

♦ Observe que não sendo as classes de mesma amplitude, foi necessário determinar-se a amplitude relativa, ou seja,

F

_i

÷

h

. Assim a amplitude relativa da classe modal é igual a 4 de modo que

∆

₁

=

4

e

3

1

4

2

=

−

=

∆

. ♦ Cálculo da variância:

(27)

(

)

(

)

₁₀₂₁

_,

₆₂

160 10700

878000

159

1

2 2 2 2 2

=













−

=













∑

−

∑

−

=

S

n

F

X

F

X

n

S

_i _i i i

♦ Cálculo do Desvio Padrão:

96 ,

31

62 ,

1021

2

=

S

♦ Cálculo de

Q

₁

,

Q

₃

e

X

~

:

40

20

80

0

40

30

1

4

1

1 =

−

+

=













∑

−

+

=

Q

F

h

f

n

Q

l

Q

90

50

80

120

50

3

4

3

3 =

−

+

=













∑

−

+

=

Q

F

h

f

n

Q

l

Q

50 20 80 0 80 30 2 ~ ₌ ₊ − ₌ ∑ − + =













Md F h f n Md l X

♦ Cálculo dos Coeficientes de Assimetria

796 ,

0

96 ,

31

429 ,

41

875 ,

66

0

=

−

=

−

=

S

M

X

AS

6 ,

0

40

90

50

2

90

40 ~

2

1 3 3 1

=

−

×

−

+

=

−

+

=

Q

X

Q

AS

(28)

♦ Conclusão:

Como nos dois casos AS > 0, a distribuição é positivamente sim