• Nenhum resultado encontrado

Estatística II

N/A
N/A
Protected

Academic year: 2021

Share "Estatística II"

Copied!
28
0
0

Texto

(1)

CAPÍTULO 2 – DESCRIÇÃO DE DADOS – ESTATÍSTICA DESCRITIVA

2.1 – A MÉDIA ARITMÉTICA OU PROMÉDIO

♦ Definição: é igual a soma dos valores do grupo de dados dividida pelo número de valores.

n x X = = ∑ s observaçõe de número x de valores dos Soma

2.2 – MÉDIA ARITMÉTICA PARA DADOS AGRUPADOS

Quando os valores de xi estão agrupados com suas respectivas freqüências absolutas Fi, a média

aritmética ou média amostral é expressa por:

n i F i x X = ∑ 2.3 – MEDIANA       X~

♦ Quando colocados em ordem crescente, é o valor que divide a amostra ou população, em duas partes iguais.

(2)

2.3.1 – CÁLCULO DA MEDIANA – VARIÁVEL DISCRETA

♦ Determinação da ordem do elemento central que caracteriza a mediana:

Se n for ímpar o elemento central será de ordem 2

1

+

n

Se n for par, a mediana será a média entre os elementos centrais de ordem

2 n

e 1 2+ n

2.3.2 – CÁLCULO DA MEDIANA – VARIÁVEL CONTÍNUA

♦ 1 – Calcula-se a ordem da mediana como sendo 2 n

,

independente de n ser par ou ímpar.

2 – Pela Fac, identifica-se a classe que contém a

mediana (classe Md) ♦ 3 – Utiliza-se a fórmula: Md F h f n Md l X       ∑ − + = 2 ~ 0 50% 100%       X~

(3)

♦ Onde:            == = ∑ = = Md classe da frequência Md classe da amplitude Md classe à anteriores s frequência das soma elementos de número ou amostra da tamanho Md classe da inferior limite Md F h f n Md l 2.4 – QUARTIS

♦ Dividem um conjunto de dados em quatro partes

iguais.

♦ Q1 = 1o Quartil

deixa 25% dos elementos.

♦ Q2 = 2o Quartil ≡ Mediana ⇒ deixa 50% dos elementos.

♦ Q3 = 3o Quartil

deixa 75% dos elementos. 2.4.1 – Como determinar o 1o e o 3o Quartis.

0 Q1 Q2 = Md Q3

(4)

♦ Para o 1o Quartil, calcula-se a ordem 4

n e para o 3o

Quartil a ordem será 4 3n

♦ Identifica-se as classes dos quartis pelas Fac.

♦ Fórmulas para determinação dos 1o e 3o Quartis, respectivamente:

+

=

+

=

3

4

3

3

3

1

4

1

1

Q

F

h

f

n

Q

l

Q

Q

F

h

f

n

Q

l

Q

2.4.2 – EXEMPLO – Dada a distribuição, determinar os quartis Q1 e Q3 e a mediana

(

)

2 ~ Q X = Classes Fi Fac 7 a 17 6 6

17 a 27 15 21

Classe Q1 (contém o 14o elemento) 27 a 37 20 41

Classe Md (contém o 28o elemento) 37 a 47 10 51

Classe Q3 (contém o 42o elemento)

(5)

Σ 56  Passo 1

n

=

56

( )

o o o

n

n

n

Q

X

Q

42

4

56

3

4

3

28

2

56

2

14

4

56

4

?

?

~

?

3 1

=

=

=

=

=

=

=

=

=

 Passo 2

Determinado os elementos, as classes são identificadas pelas Fac, como mostrado na tabela

anterior.

♦ Passo 3

Uso das fórmulas para a determinação de Q1 e Q3 e

(

)

2 ~ Q X = : ♦ Para Q1 temos:

15

;

10

;

6

;

56

;

17

1 1

=

=

=

=

Q

=

Q

n

f

h

F

l

♦ Para

(

)

2 ~ Q X = temos:

20

;

10

;

21

;

56

;

27

1

=

=

=

=

=

Q Md

n

f

h

F

l

♦ Para Q3 temos:

10

;

10

;

41

;

56

;

37

1 3

=

=

=

=

Q

=

Q

n

f

h

F

l

(6)

♦ Portanto:

38

10

10

41

4

56

3

37

5

,

30

20

10

21

2

56

27

~

33

,

22

15

10

6

4

56

17

3 1

=

×

+

=

=

+

=

=

+

=

Q

X

Q

2.5 – DECIS E PERCENTIS

♦ Dividem, respectivamente, a série em 10 (Decil) e 100 (Percentil) partes iguais.

2.5.1 – Cálculo para um decil (Di)

♦ Passo 1 – Calcula-se a ordem

10

in

, onde i = 1,2,3,4,5,6,7,8 e 9

Passo 2 – Identifica-se a classe Di pela Fac

♦ Passo 3 – Aplica-se a fórmula:

Conclusão: 25% das observações estão entre 7 e 22,33. 25% das observações estão entre 22,33 e 30,5. 25% das observações estão entre 30,5 e 38. 25% das observações estão entre 38 e 57. D1 D2 D3 D4 D5 D6 D7 D8 D9 0% 10% 20% 30%40%50%60%70%80%90%100%

(7)

i i D D i

F

h

f

in

l

D

+

=

10

2.5.2 – Cálculo de um percentil (Pi)

♦ Passo 1 – Calcula-se a ordem

100

in

, onde i = 1,2,3,....98,99

♦ Passo 2 – Identifica-se a classe Pi pela Fac

♦ Passo 3 – Aplica-se a fórmula:

i i P P i

F

h

f

in

l

P

+

=

100

2.6 – MODA

♦ É o valor mais freqüente da distribuição.

2.6.1 – Moda de uma distribuição simples, ou seja, sem agrupamento em classes.

P1 P2 P3 P50 P97 P98 P99

(8)

♦ Identifica-se facilmente observando-se qual o elemento que apresenta maior freqüência. Por exemplo:

X

i

243 245 248 251 307

F

i

7

17 23 20 8

A moda será o elemento 248. Indica-se como:

M

o

= 248

2.6.2 – Moda para dados agrupados em classes, ou seja, variáveis contínuas.

♦ Passo 1 – Identificar a classe moda (aquela de maior freqüência)

Aplica-se a fórmula (de Czuber)

h

l

M

o Mo 2 1 1

+

+

=

♦ Onde:

(9)



=

=

=

=

modal.

classe

da

amplitude

posterior.

nte

imediatame

classe

da

frequência

a

e

modal

classe

da

frequência

a

entre

diferença

anterior.

nte

imediatame

classe

da

frequência

a

e

modal

classe

da

frequência

a

entre

diferença

modal

classe

da

inferior

limite

2 1

h

l

o M

2.7 – Um exemplo completo – A tabela a seguir mostra as notas de 50 alunos. 60 85 33 52 65 77 84 65 74 57 71 35 81 50 35 64 74 47 54 68 80 61 41 91 55 73 59 53 77 45 41 55 78 48 69 85 67 39 60 76 94 98 66 66 73 42 65 94 88 89 (a) Determine a amplitude total da amostra.

♦ O trabalho ficará mais fácil se construirmos uma tabela, colocando os dados em ordem decrescente.

♦ Utilizando-se o excel, isto não será necessário.

A amplitude total, R, é definida como:

valor

menor

valor

maior

(10)

♦ O maior valor será igual a 98, enquanto o menor valor será 33. Assim,

65

33

98

=

=

R

R

(b) Número de classes pela fórmula de Sturges.

Para determinarmos o número de classes, K, usaremos a fórmula de Sturges, ou seja:

( )

n

K

=

1

+

3

,

22

×

log

.

No nosso caso n = 50. Substituindo na fórmula acima, temos que K = 6,47.

♦ Devemos “arredondar” este valor para o inteiro imediatamente superior. Portanto o número de classes será K = 7

(c) Amplitude das classes.

A amplitude das classes, h, é dado por:

K

R

h

♦ O resultado acima não é um número inteiro e, portanto, devemos “arredondá-lo”. No caso, encontramos h = 10.

♦ Apresentaremos os itens (d); (e); (f); (g) e (h) através de uma tabela.

(d) Quais as classes? (Inicie pelo 30). (e) Freqüências absolutas das classes. (f) Freqüências relativas.

(11)

(h) Freqüências acumuladas crescentes. classes Intervalos de Classes Fi f xi Fac xiFi 1 30 a 40 4 0,08 35 4 140 2 40 a 50 6 0,12 45 10 270 3 50 a 60 8 0,16 55 18 440 4 60 a 70 12 0,24 65 30 780 5 70 a 80 9 0,18 75 39 675 6 80 a 90 7 0,14 85 46 595 7 90 a 100 4 0,08 95 50 380 Σ 50 3280

(i) Histograma das freqüências absolutas.

♦ O histograma apresentado abaixo foi construído com o excel.

Histograma

0 2 4 6 8 10 12 14 1 2 3 4 5 6 7 Classes F re q u ê n c ia s A b s o lu ta s

(12)

(j) Calcular a média amostral.

♦ Para determinarmos a média amostral, foi necessário acrescentar mais uma coluna à tabela acima, contendo o produto

x

i

F

i e no final desta coluna, obter a soma, ou seja:

x

i

F

i

♦ A média amostral será dada por:

=

=

50

3280

X

n

F

x

X

i i

6

,

65

=

X

(k) Calcular e interpretar a moda.

♦ A fim de determinarmos a Moda, usaremos a equação:

h

l

M

o Mo 2 1 1

+

+

=

♦ Da tabela, vemos que a classe moda, ou seja, a classe de maior freqüência absoluta é a 4a e

l

Mo

=

60

.

4

8

12

1

=

=

;

1

=

12

9

=

3

e h = 10. Portanto, a moda será:

66

7

40

60

10

3

4

4

60

×

=

+

=

+

+

=

o o

M

M

(13)

♦ Concluímos pois, que 66 foi a nota mais freqüente do grupo.

(l) Calcular e interpretar a mediana.

♦ Como visto na seção 2.3.2, a ordem da mediana é igual 25, ou seja, 50/2. Da tabela, concluímos que a classe da mediana é a 4a. ♦ Usando a fórmula: Md F h f n Md l X       ∑ − + = 2 ~

♦ Onde da tabela vemos que:

(

)

~

65,83

12

10

18

25

60

~

=

+

=

X

X

♦ Este resultado nos diz que 50% da amostra têm nota inferior a 65,83

(m) Determinar e interpretar o 1o quartil.

♦ A classe a qual pertence o 1o quartil será

12

,

5

4

50

=

e

procurando na coluna da Fac da tabela, vemos que

(14)

♦ Calcula-se Q1 usando a fórmula:

1

4

1

1

Q

F

h

f

n

Q

l

Q

+

=

(

)

53

,

125

8

10

10

5

,

12

50

1 1

=

+

=

Q

Q

♦ Este resultado nos diz que 25% dos alunos têm nota inferior a 53,125.

(n) Calcular e interpretar o 55o percentil.

♦ A classe a qual pertence o 55o percentil será

5

,

27

100

50

55

=

×

e da coluna Fac da tabela vemos este

elemento pertence à 4 classe.

♦ Usando a fórmula i i P P i

F

h

f

in

l

P

+

=

100

, temos que: ♦

(

)

67

,

92

12

10

18

5

,

27

60

55 55

=

+

=

P

P

♦ Isto significa que 45% do grupo tirou nota superior a este valor.

(15)

♦ São medidas que avaliam a dispersão em torno da média, verificando a representatividade da média.

2.8.1 – AMPLITUDE TOTAL

♦ É uma medida de dispersão dada pela diferença entre o maior e o menor valor da série.

min

max

X

X

R

=

♦ É de utilização limitada, pois, sendo uma medida que depende apenas dos valores extremos, não capta as possíveis variações entre esses limites.

2.8.2 – VARIÂNCIA AMOSTRAL

♦ Desvio: mede quanto cada valor Xi se afasta em relação à

X

e é dado por:

X

X

d

i

=

i

♦ É fácil verificar que

d

i

=

0

.

♦ A fim de determinar a variância, devemos considerar os quadrados dos desvios, ou seja,

d

i2

2.8.2.1 – CÁLCULOS DA VARIÂNCIA

X

(16)

♦ A variância,

S

2, de uma amostra de n medidas é igual à soma dos quadrados dos desvios, dividida por (n – 1), portanto:

(

)

1

1

2 2 2

=

=

n

X

X

n

d

S

i i

♦ Para dados agrupados, a variância será dada por:

(

)

1

1

2 2 2

=

=

n

F

X

X

n

F

d

S

i i i i

2.8.2.2 – Fórmulas práticas para o cálculo da variância amostral.

(

)

=

n

X

X

n

S

i i 2 2 2

1

1

♦ Para dados agrupados temos que:

(

)

=

n

F

X

F

X

n

S

i i i i 2 2 2

1

1

♦ Quanto maior o valor de S2, maior a dispersão dos dados amostrais.

2.8.3 – DESVIO PADRÃO AMOSTRAL

2

S

S

=

(17)

 Regra Empírica

Para qualquer distribuição amostral com média

X

e desvio padrão S, tem-se que:

♦ O intervalo

X

±

S

contém entre 60% e 80% de todas as observações amostrais. A porcentagem aproxima-se de 70% para as distribuições aproximadamente simétrica, chegando a 90% para distribuições fortemente assimétricas.

♦ O intervalo

X

±

2

S

contém aproximadamente 95% das observações amostrais para distribuições simétricas e aproximadamente 100% para as de assimetria elevada.

♦ O intervalo

X

±

3

S

contém aproximadamente 100% das observações amostrais.

 Teorema de Tchebycheff

Para qualquer distribuição amostral com média

X

e desvio padrão S, tem-se que:

♦ O intervalo

X

±

2

S

contém, no mínimo 75% de todas as observações amostrais.

♦ O intervalo

X

±

3

S

contém, no mínimo 89% de todas as observações amostrais.

(18)

2.8.5 –Exemplo – 1 Calcular a variância e o desvio padrão da seguinte distribuição amostral:

Xi 5 7 8 9 11 Fi 2 3 5 4 2

♦ Construímos um nova tabela a fim de determinarmos os valores de

X

i

F

i e

X

i2

F

i Xi Fi XiFi i i

F

X

2 5 2 10 50 7 3 21 147 8 5 40 320 9 4 36 324 11 2 22 242 Σ 16 129 1086

♦ Usando a fórmula prática para calcular a variância, temos que:

(

)

=

n

F

X

F

X

n

S

i i i i 2 2 2

1

1

( )

2

,

86

16

129

1086

1

16

1

2 2

=

=

S

♦ Cálculo do desvio padrão:

69

,

1

86

,

2

2

=

=

=

S

S

S

2.8.6 – Exemplo 2 – Consideremos a distribuição amostral das idades de 50 funcionários de uma empresa e determinemos a variância, o desvio padrão e constatemos as regras para interpretação do desvio padrão.

(19)

Intervalo das classes

F

i

X

i

X

i

F

i i i

F

X

2 18 a 25 6 21,5 129 2773,5 25 a 32 10 28,5 285 8122,50 32 a 39 13 35,5 461,5 16383,5 39 a 46 8 42,5 340 14450 46 a 53 6 49,5 297 14701,5 53 a 60 5 56,5 282,5 15961,25 60 a 67 2 63,5 127 8064,5 Σ 50 1922 80456,50 ♦ Cálculo da média amostral:

44

,

38

50

1922

=

=

=

X

n

F

X

X

i i anos

♦ Cálculo da variância amostral:

(

)

=

n

F

X

F

X

n

S

i i i i 2 2 2

1

1

18

,

134

50

1922

50

,

80456

1

50

1

2 2

=

=

S

♦ Cálculo do desvio padrão:

anos

58

,

11

18

,

134

2

=

=

=

S

S

♦ Verificação das regras para interpretação do desvio padrão

(20)

(

28

,

86

;

50

,

02

)

58

,

11

44

,

38

±

=

=

±

S

X

♦ Da tabela, concluímos que 60% das idades observadas estão entre 27 e 50 anos, o que concorda com a regra empírica que estabelece que o referido intervalo deverá conter de 60% a 80% das observações.

(

15

,

28

;

61

,

60

)

58

,

11

2

84

,

3

2

=

±

×

=

±

S

X

♦ Mais uma vez, consultando a tabela, vemos que 98%

das idades observadas estão entre 16 e 62 anos, o que mais uma vez concorda com a regra empírica desde que a distribuição estudada é altamente assimétrica. Esse resultado também confirma o critério de Tchebycheff que define no mínimo 75% da observações para o intervalo

X

±

2

S

.

2.9 – COEFCIENTE DE VARIAÇÃO DE PEARSON

A Amplitude total (R), Variância (S2) e o desvio

padrão (S), são medidas absolutas de dispersão. Mostraremos agora uma medida relativa de

(21)

dispersão, denominada de Coeficiente de Variação (C.V.), definida como:

100

.

=

×

X

S

V

C

♦ Onde S = desvio padrão amostral

x

= média

amostral.

2.10 – REGRAS EMPÍRICAS PARA

INTERPRETAÇÕES DO C.V ♦ Se

<

<

dispersão

elevada

%

30

.

dispersão

média

se

têm

%

30

%

15

disperão

baixa

%

15

.

V

C

CV

V

C

2.11 – ESCORE PADRONIZADO (Z)

♦ Outra medida relativa de dispersão para uma medida Xi.

(22)

S

X

X

Z

i

=

i

Um escore Zi negativo indica que a observação Xi está à esquerda da média, enquanto um escore positivo indica que a observação está á direita da média.

♦ Exemplos: São dados, os médios e os desvios padrões das avaliações de duas disciplinas:

Português Matemática

5

,

6

=

P

X

X

M

=

5

,

0

2

,

1

=

P

S

S

M

=

0

,

9

Relativamente às disciplinas Português e Matemática, em qual delas obteve melhor performance um aluno com 7,5 em Português e 6,0 em Matemática?

Determinando es escores padronizados para as notas obtidas temos que:

Português:

0

,

83

2

,

1

5

,

6

5

,

7

=

=

P

Z

Matemática

1

,

11

9

,

0

0

,

5

0

,

6

=

=

M

Z

Uma vez que o escore padronizado de Matemática é maior que o de Português, o aluno teve melhor performance na primeira.

(23)

desvio padrão 0,052 para determinada variável. Verificar se os dados 0,380 e 0,455 podem ser considerados observações da referida variável.

Para Xi = 0,380

63

,

2

052

,

0

243

,

0

380

,

0

=

=

i

Z

Para Xi = 0,455

08

,

4

052

,

0

243

,

0

455

,

0

=

=

i

Z

Como podemos observar, o dado 0,455 tem escore padronizado maior que 3, isto significa dizer que esta observação foge da dimensão esperada (denominada de outliers) e portanto pode ser descartada. Por outro lado, o dado 0,38, cujo escore padronizado foi igual a 2,63 pode ser considerado um dado normal.

2.12 – MEDIDAS DE ASSIMETRIA

♦ Mede o grau de afastamento de uma distribuição da unidade de simetria, a mediana.

♦ Em uma distribuição simétrica, a média, a mediana e a moda têm os mesmos valores.

(24)

A figura acima representa o gráfico de uma distribuição simétrica.

♦ Em uma distribuição assimétrica positiva ou assimétrica à direita, tem-se:

X

X

M

o

<

~

<

♦ Como ilustra o gráfico abaixo.

♦ Já para uma distribuição assimétrica negativa, ou assimétrica à esquerda, tem-se:

(25)

o

M

X

X

<

~

<

♦ Segundo a ilustração abaixo

♦ Entre as diversas fórmulas para a determinação do coeficiente de assimetria, podemos citar como úteis as duas seguintes: 10 Coeficiente de Pearson:

S

M

X

AS

=

0 20 Coeficiente de Pearson: 1 3 3 1

~

2

Q

Q

X

Q

Q

AS

+

=

♦ Se:

<

>

=

negativa

a

assimétric

é

ão

distribuiç

a

que

se

-diz

,

0

positiva

a

assimétric

é

ão

distribuiç

a

que

se

-diz

,

0

simétrica

é

ão

distribuiç

a

que

se

-diz

,

0

AS

AS

AS

(26)

2.13 – Exemplo: Dada a distribuição amostral, calcular os dois coeficientes de assimetria de Pearson.

Salário ($1000) 30

a

50 50

a

100 100

a

150

Empregados 80 50 30

Para determinar os dois coeficientes de Pearson, necessitamos calcular a média, a moda, o desvio padrão, os 10 e 30 quartis e a mediana. Assim, temos que:

Classes i

F

X

i

X

i

F

i

X

i2

F

i

F

i

÷

h

F

ac 30

a

50 80 40 3200 128000

80

÷

20

=

4

82 50

a

100 50 75 3750 281250

50

÷

50

=

1

130 100

a

150 30 125 3750 468750

30

÷

50

=

0

,

6

160 Σ 160 10700 878000 ♦ Média:

875

,

66

160

10700

=

=

=

X

n

F

X

X

i i ♦ Moda:

429

,

41

20

3

4

4

30

2 1 1

×

=

+

+

=

+

+

=

l

h

M

o Mo

♦ Observe que não sendo as classes de mesma amplitude, foi necessário determinar-se a amplitude relativa, ou seja,

F

i

÷

h

. Assim a amplitude relativa da classe modal é igual a 4 de modo que

1

=

4

e

3

1

4

2

=

=

. ♦ Cálculo da variância:

(27)

(

)

(

)

1021

,

62

160

10700

878000

159

1

1

1

2 2 2 2 2

=

=

=

=

S

n

F

X

F

X

n

S

i i i i

♦ Cálculo do Desvio Padrão:

96

,

31

62

,

1021

2

=

=

=

S

S

♦ Cálculo de

Q

1

,

Q

3

e

X

~

:

40

20

80

0

40

30

1

4

1

1

=

+

=

+

=

Q

F

h

f

n

Q

l

Q

90

50

50

80

120

50

3

4

3

3

3

=

+

=

+

=

Q

F

h

f

n

Q

l

Q

50 20 80 0 80 30 2 ~ = += ∑ − + =

Md F h f n Md l X

♦ Cálculo dos Coeficientes de Assimetria

796

,

0

96

,

31

429

,

41

875

,

66

0

=

=

=

S

M

X

AS

6

,

0

40

90

50

2

90

40

~

2

1 3 3 1

=

×

+

=

+

=

Q

Q

X

Q

Q

AS

(28)

♦ Conclusão:

Como nos dois casos AS > 0, a distribuição é positivamente sim

Referências

Documentos relacionados

MEDIDAS DE CONTROLE PARA DERRAMAMENTO OU VAZAMENTO O atendimento de vazamento só deve ser efetuado por pessoal treinado em manuseio de hipoclorito de sódio;.. Precauções pessoais:

b) Execução dos serviços em período a ser combinado com equipe técnica. c) Orientação para alocação do equipamento no local de instalação. d) Serviço de ligação das

libras ou pedagogia com especialização e proficiência em libras 40h 3 Imediato 0821FLET03 FLET Curso de Letras - Língua e Literatura Portuguesa. Estudos literários

Passo-a-Passo da Reestruturação Proposta 7 WSSA Grupo OWHL 58% Free Float (BDR no Brasil) 42% WSL Incorporação da WSL na WSSA e descontinuação da WSL em Bermudas

Perfil esquemático das camadas de carvão, cilindros, espessura das camadas, conteúdo de macerais e matéria mineral, cinzas, reflectância da vitrinita e de gás total...

Portanto, o tema do artigo nos remete também a pensarmos na importância da família junto à escola, as contribuições que os pais podem oferecer quando existe uma participação

O com.arte sublima o sucesso da associação entre Arte e Comércio porquanto, nesta iniciativa, lojistas do comércio local e artistas das mais diversas expressões de Arte,

O autor inglês defende que as novelas de cavalaria constituem parte da cultura ocidental, com especial significado para o povo brasileiro (BURKE, 2000, p 186). Passemos