• Nenhum resultado encontrado

5. Medidas de Posição

N/A
N/A
Protected

Academic year: 2021

Share "5. Medidas de Posição"

Copied!
54
0
0

Texto

(1)

5. Medidas de Posição

Depois de se fazer a coleta e a representação dos dados de uma pesquisa, é comum analisarmos as tendências que essa pesquisa revela. Assim se a pesquisa envolve muitos dados, convêm sintetizarmos todas essas informações a um mínimo de parâmetros que possam caracterizá-la. Esses parâmetros podem ser de:

 centralização: média aritmética, mediana e moda.  separatrizes: mediana, quartis e percentis.

 dispersão: intervalo de variação, desvio médio, variância e desvio padrão.

1. Média Aritmética (

x

ou

µ

)

A média caracteriza o centro da distribuição de freqüências, sendo, por isso uma medida de posição. Podemos definir vários tipos de médias de um conjunto de dados, temos a média aritmética, a média geométrica, a média harmônica, etc.

Aqui, trabalharemos exclusivamente com a média aritmética (simples ou ponderada).

É comum distinguirmos, em termos de notação, a média amostral e a média populacional, embora o cálculo de ambas seja o mesmo e apresente, portanto, o mesmo resultado:

x (lê-se: “xis barra”) → média amostral

µ (lê-se: “mi”) → média populacional

Há três formas para calcular a média. Isse depende de como está o nosso conjunto de dados: não agrupados, agrupados sem classes ou agrupados com classes.

Importante: nunca devemos arredondar o valor da média, mesmo que esse número não faça, aparentemente, sentido. Por exemplo: se calculamos que o número médio de filhos é 1,8, não devemos arredondar para 2. Embora não faça sentido falarmos em 1,8 filhos por família, pense em 18 filhos (em média) a cada 10 famílias, ou, ainda, 180 filhos, em média, a cada 100 famílias. Agora, o número médio passa a ter um sentido “prático”.

Caso I: Dados não agrupados

Para uma seqüência numérica X: x1, x2, …, xn, a média aritmética simples, que designamos por

x ou µ é definida por:

x

=µ n xi

=

Exemplo 1: calcular a média da série X : 2, 0, 5, 3:

2,5 4 3 5 0 2 x= + + + =

(2)

Caso II: Dados agrupados sem intervalos de classe

Se os dados estão apresentados na forma de uma variável discreta faremos a média aritmética ponderada considerando as freqüências simples de fi como sendo as ponderações dos elementos xi correspondentes:

Assim a fórmula para o cálculo da média é:

= µ = i i i f f x x ou n f x x=µ =

i i

Exemplo 2: Considerando a distribuição:

xi fi 2 1 4 3 5 2 total 6 4 6 10 12 2 2 3 1 2 . 5 3 . 4 1 . 2 n f x X i i = + + = + + + + = =

Caso III: Dados agrupados com intervalos de classe

Quando os dados estão agrupados com intervalos de classes, ou seja, quando se trata de uma variável contínua, se aceita, por convenção, que as freqüências se distribuem uniformemente ao longo da classe e que, portanto, o ponto médio da classe é o valor representativo do conjunto. Neste caso a média será calculada fazendo a média aritmética ponderada considerando as freqüências simples de fi como sendo as ponderações dos elementos xicorrespondentes, onde

i

x é o ponto médio do intervalo. Assim, a fórmula para o cálculo da média é a mesma que a do caso II:

= µ = i i i f f x x ou n f x x=µ =

i i Relembrando: n

Ponto médio de uma classe (xi) corresponde à soma do limite inferior com o limite superior dessa

classe, dividindo o resultado por 2. Ou seja:

(3)

Exemplo 3: Considere a distribuição: classe fi x i 180 |― 200 4 190 200 |― 220 18 210 220 |― 240 10 230 240 |― 260 5 250 260 |― 280 3 270 total 40 --- n f x x=

i i = 222,50 40 8900 3 5 10 18 4 3 . 270 5 . 250 10 . 230 18 . 210 4 . 190 = = + + + + + + + +

2. Moda (Mo)

A moda de uma série de valores é o valor de maior freqüência absoluta,ou seja, o valor que aparece o maior número de vezes na distribuição. Fique atento: moda é um valor, ou seja, xi.

Moda NÃO é a freqüência (fi)!

Assim como no caso da média, vamos considerar três casos para obtermos a moda.

Caso I: Dados não agrupados

Exemplos:

1) Dada a série: 2, 0, 0, 5, 3, observamos que o valor 0 ocorreu duas vezes. Logo, Mo = 0. 2) Seja o ROL: 1, 2, 5, 7, 12,18, notamos que não existe um valor que apareça mais vezes.

Neste caso, dizemos que a série de dados é amodal (não há moda).

3) Dada a série: 1, 1, 2, 2, 2, 3, 3, 3, 4, 5, 5, 6, vemos que os valores 2 e 3 ocorreram três vezes cada um. Neste caso, temos dois valores modais, ou seja, Mo = 2 e 3. A série é dita bimodal.

Caso II: Dados agrupados sem intervalos de classe Exemplo 4: Considerando a distribuição:

xi fi

2 1

4 3

5 2

total 6

A maior freqüência é 3, que corresponde ao valor 4. Logo, Mo = 4.

210 2 220 200+ = 190 2 200 180+ = n

(4)

Caso III: Dados agrupados com intervalos de classe

Neste caso, a classe que apresenta a maior freqüência é denominada classe modal. No caso de distribuição de freqüências em classes de mesma amplitude, a moda corresponde a um ponto pertencente à classe modal dado pela fórmula de Czuber:

h . D D D L Mo 2 1 1 Mo       + + = com D1 = fmo – fant D2 = fmo – fpost onde:

LMo = limite inferior da classe modal fMo = freqüência absoluta da classe modal

fant = freqüência absoluta da classe imediatamente anterior à classe modal fpost = freqüência absoluta da classe imediatamente posterior à classe modal h = amplitude da classe modal

Exemplo 5: Considere a distribuição:

classe fi x i 180 |― 200 4 190 200 |― 220 18 210 220 |― 240 10 230 240 |― 260 5 250 260 |― 280 3 270 total 40 ---

Inicialmente, devemos localizar a CLASSE MODAL, ou seja, a classe que conterá a moda. Ela corresponde ao intervalo que possui maior freqüência. No caso, 200 |― 220. Feito isso, basta aplicarmos a fórmula de Czuber:

LMo = 200 fMo = 18 fant = 4 fpost = 10 h = 220-200 = 20 Logo: D1 = 18 – 4 = 14 D2 = 18 – 10 = 8 classe modal

(5)

Mo = .20 212,7 22 14 200 20 . 8 14 14 200  = + =      + +

3. Mediana (Md)

A mediana de um conjunto de valores, colocados em rol, é o valor situado de tal forma no conjunto que o separa em dois subconjuntos de mesmo número de elementos (elemento que ocupa a posição central). Em outras palavras, tendo-se um conjunto de dados ordenados de maneira crescente (ROL), a mediana é o valor que separa os 50% dos menores dados dos 50% maiores.

Caso I: Dados não agrupados

Exemplo 6: CASO ÍMPAR: sejam os resultados de 5 lançamentos de um dado: 2, 4, 4, 5, 6. A mediana corresponde ao valor 4, visto que ele é o valor central, deixando 2 dados à sua esquerda e 2 à sua direita. Assim, Md = 4.

Note que n=5 (ímpar). A posição ocupada pela mediana é a 3ª. Essa posição poderia ser obtida da seguinte forma: 3 5 , 0 2 5 5 , 0 2 n+ = + =

ª posição que corresponde ao valor Md=4.

Exemplo 7: CASO ÍMPAR: sejam as idades de 9 pessoas: 37, 28, 40, 41, 45, 37, 37, 41, 44. Colocando os dados em rol temos: 28, 37, 37, 37, 40, 41, 41, 44, 45.

A mediana corresponde ao valor 40 (ou seja, idade), pois há quatro valores à esquerda de 40 e quatro valores à direita de 40. Assim, Md=40.

Perceba que a posição ocupada pela mediana é a 5ª. Utilizando o mesmo raciocínio do exemplo anterior, podemos obter essa posição através do seguinte cálculo:

5 5 , 0 2 9 5 , 0 2 n+ = + =

ª posição que corresponde ao valor Md=40.

Exemplo 8: CASO PAR: considere o número de filhos de 6 famílias: 0, 0, 1, 2, 3, 3. Perceba que a mediana não poderia ser 1, pois deixaria dois valores à esquerda e três à direita. Da mesma forma, a mediana não poderia ser 2, pois deixaria três valores à esquerda e dois valores à direita. Dessa forma, a mediana será a média aritmética dos dois valores centrais:

5 , 1 2 2 1 Md= + = (nunca arredondar!)

Observe que a mediana corresponde à média dos valores que ocupam a 3ª e 4ª posições. Essas posições podem ser obtidas da seguinte forma:

3 2 6 2 n = = ª posição e 1 3 1 4 2 6 1 2 n+ = + = + = ª posição.

(6)

Novamente, vamos ressaltar: a 3ª posição é ocupada pelo valor 1; a 4ª posição é ocupada pelo valor 2. A mediana é, portanto, o valor 1,5.

Exemplo 9: CASO PAR: sejam as idades de 8 pessoas: 21, 24, 28, 31, 34, 35, 38, 38

A mediana corresponde a média aritmética dos dois valores centrais, que são 31 e 34. Assim:

5 , 32 2 34 31 Md= + = anos.

Note que o valor 31 anos está na 4ª posição e o valor 34 anos ocupa a 5ª posição. Vamos obter essas posições utilizando a mesma fórmula do exemplo anterior:

4 2 8 2 n = = ª posição e 1 4 1 5 2 8 1 2 n+ = + = + = ª posição

Logo, a mediana corresponderá a média dos valores que ocupam as posições calculadas.

Caso II: Dados agrupados sem intervalos de classe

Para determinarmos à mediana de uma distribuição de dados discreta, vamos trabalhar com as situações de n par ou n ímpar que citamos nos exemplos do caso I. Para facilitar a localização da posição da mediana, utilizaremos a freqüência acumulada.

Exemplo 10: n ÍMPAR

Considerando a distribuição:

Inicialmente, calculamos a posição ocupada pela mediana utilizando a regra de n ímpar:

11 5 , 0 5 , 10 5 , 0 2 21 = + = + ª posição. idades fi Fi Significado de Fi (posições) 12 3 3 1ª a 3ª 14 5 8 4ª a 8ª 15 6 14 9ª a 14ª 16 2 16 15ª a 16ª 17 5 21 17ª a 21ª total 21 --- ---

A mediana não precisa ser um dos valores da distribuição e nem deve ser arredondada!

(7)

Na tabela, localizamos a linha que contém a 11ª posição, que no caso é a terceira linha. Verificamos o valor que está nessa linha, que no caso é a idade 15. Assim, Md = 15 anos. Exemplo 11: n PAR

Considere a distribuição:

Calculando a posição da mediana, utilizando a regra de n PAR:

7 2 14 =

ª posição e a seguinte, ou seja, 8ª posição.

Ou seja, os valores centrais da distribuição ocupam a 7ª e 8ª posições.

Na tabela, vemos que a 7ª posição é ocupada pelo valor (idade) 21 anos, enquanto que a 8ª posição é ocupada pelo valor 22 anos. A mediana da distribuição será:

5 , 21 2 22 21 Md= + = anos.

Mais uma vez, perceba que a mediana é um valor. As posições são calculadas apenas para que cheguemos a esse valor, que no caso é Md=21,5.

Caso III: Dados agrupados com intervalos de classe

Quando estamos trabalhando com variáveis contínuas, ou seja, quando os dados estão agrupados em classes, determinamos a classe na qual se encontra a mediana, que chamaremos de classe mediana. Neste caso, não nos preocuparemos se estamos trabalhando com uma quantidade de dados par ou ímpar, visto que apenas precisamos determinar a classe que contém a mediana. Em seguida, calculamos o valor da mediana através da fórmula:

Md = .h f F 2 n L Md ant Md             − + em que:

LMd é o limite inferior da classe mediana;

Fant é a freqüência acumulada da classe anterior à classe mediana; h é a amplitude do intervalo da classe mediana;

fMd é a freqüência simples (ou absoluta) da classe mediana.

idades fi Fi Significado de Fi (posições) 20 2 2 1ª a 2ª 21 5 7 3ª a 7ª 22 7 14 8ª a 14ª total 14 --- ---

(8)

Exemplo 12: considere a distribuição: classe fi F i Significado de Fi (posições) 180 |― 200 4 4 1ª a 4ª 200 |― 220 18 22 5ª a 22ª 220 |― 240 10 32 23ª a 32ª 240 |― 260 5 37 33ª a 37ª 260 |― 280 3 40 38ª a 40ª total 40 ---

Vamos verificar qual a classe que contém a mediana. Para isto, vamos calcular a posição ocupada pela mediana:

ª 20 2 40 =

posição.

Note que essa posição corresponde à classe 200 |― 220. Esta é a classe mediana. Utilizando a fórmula apresentada: Li = 200 Fant = 4 h= 220 – 200 = 20 fMd = 18 Md = .20 18 4 2 40 200             − + = 200 + 17,78 ⇒ Md = 217,78

Exemplo 13: considerando a distribuição:

Cálculo da classe mediana:

5 , 20 41=

ª posição. Vamos arredondar para a 21ª posição. Na tabela, identificamos que essa Alturas (cm) fi Fi Significado de Fi (posições) 150 |― 154 4 4 1ª a 4ª 154 |― 158 9 13 5ª a 13ª 158 |― 162 11 24 14ª a 24ª 162 |― 166 8 32 25ª a 32ª 166 |― 170 5 37 33ª a 37ª 170 |― 174 4 41 38ª a 41ª total 41 --- --- classe mediana classe mediana

(9)

Li = 158 Fant = 13 h = 162 – 158 = 4 fMd = 11 Md = .4 11 13 2 40 158             − + = 158 + 2,54 ⇒ Md = 160,54 cm

4. Exemplos

Vamos obter a média, a moda e a mediana para os casos a seguir.

Exemplo 14: considere as notas obtidas por 25 alunos, numa avaliação de Estatística, distribuídas na tabela abaixo. Determine a média, a mediana e a moda.

Nota fi Fi 4 1 1 5,5 5 6 6 3 9 8,5 8 17 9 5 22 10 3 25 Total 25 --- Média: 7,7 25 5 , 192 25 10 . 3 9 . 5 5 , 8 . 8 6 . 3 5 , 5 . 5 4 . 1 n x . f x = i i = + + + + + = = = µ

.

Moda: é o valor com maior freqüência. Na tabela, vemos que a maior freqüência é 8 e corresponde à nota 8,5. Logo, Mo = 8,5.

Mediana: inicialmente, calculamos a posição da mediana usando a regra do n ÍMPAR:

13 5 , 0 5 , 12 5 , 0 2 25+ = + =

ª posição. Utilizando a coluna da freqüência acumulada, percebemos que o valor que ocupa a 13ª posição é a nota 8,5. Assim, Md = 8,5.

Resumindo: a nota média obtida na prova feita pelos 25 alunos é 7,7, sendo que a nota 8,5 ocorreu com a maior freqüência (moda) e 8,5 é a nota que separa as 50% menores notas obtidas das 50% maiores (mediana).

(10)

Exemplo 15: a tabela abaixo indica o aluguel de um grupo de casas. Classe Aluguel (R$) Nº de casas Fi xi (ponto médio) 1 0 | 200 30 30 100 2 200 | 400 52 82 300 3 400 | 600 28 110 500 4 600 | 800 7 117 700 5 800 | 1.000 3 120 900 total 120 --- ---

Média: para o cálculo da média, construímos, na tabela, a coluna do ponto médio, que corresponderá ao nosso xi. Aplicando a fórmula:

335 120 40200 120 900 . 3 700 . 7 500 . 28 300 . 52 100 . 30 x= + + + + = = = µ reais.

Moda: observando as freqüências absolutas, percebemos que a segunda classe é aquela que possui a maior freqüência, ou seja, a classe modal é 200 | 400.

Calculamos as diferenças: D1 = fMo – fant = 52 – 30 = 22 D2 = fMo – fpost = 52 – 28 = 24 Aplicando a fórmula de Czuber:

h . D D D L Mo 2 1 1 Mo       + + = = 200 + 200 24 22 22      + = 200 + 46 200 22 = 200 + 95,7 = 295,7 reais.

Mediana: inicialmente, calculamos a posição da mediana para, em seguida, determinar a classe mediana.

60 2

120 =

ª posição

Esta posição está na segunda classe, ou seja, na classe 200 | 400 (classe mediana). Logo: LMd = 200 Fant = 30 h= 400 – 200 = 200 fMd = 52 Aplicando a fórmula: Md = .h f F 2 n L Md ant Md           − + = .200 52 30 2 120 200           − + = 200 + 115,4 = 315,4 reais classe modal e classe mediana

(11)

Resumindo: o aluguel médio das casas pesquisadas é R$ 335,00, sendo que o valor que mais ocorre é R$ 295,70 e o valor mediano encontrado foi R$ 315,40, ou seja, metade dos alugueis cobrados tem valor superior ao mediano e a outra metade possui valor inferior a R$ 315,40.

5. A média é representativa?

A média é uma medida que representa bem o conjunto de dados?

Consideremos os conjuntos de valores, por exemplo, de 5 provas feitas por um aluno A e um outro B:

A: 5, 5, 5, 5, 5 B: 0, 0, 5, 10, 10

Note que a média das provas de ambos alunos é a mesma, ou seja, µA = µB = 5. Porém, é nítido que os alunos não tiveram o mesmo desempenho ao longo das provas. Enquanto A se manteve constante, B foi muito mal no começo mas muito bem no final. Assim, só a média não é capaz de traduzir o conjunto de dados.

Dessa forma, com a utilização da moda e da mediana, passamos a ter uma visão melhor de como se comportam os dados em nosso conjunto (no caso que não temos acesso ao conjunto de dados brutos). Assim, vejamos uma tabela comparativa:

Grupo A B

Média 5 5

Moda 5 0 e 10

Mediana 5 5

Observando esses resultados, percebemos que o conjunto A possui uma variabilidade de notas maior que o do conjunto B, dando indícios que as notas em A foram mais homogêneas que as notas em B. Mesmo assim, para termos certeza disso, devemos calcular outras medidas estatísticas, chamadas de medidas de dispersão que estudaremos mais adiante.

6. Exercícios

1. Calcule a moda, a mediana e a média das seguintes séries: i. 46, 44, 49, 45, 44, 48, 50, 42, 47

ii. 1, 1, 3, 2, 3, 5, 4, 5, 3, 3, 2, 2, 1, 1

2. Calcule a mediana e a média do conjunto de dados apresentados pela seguinte distribuição de freqüências:

xi 8 12 16 20

(12)

3. Determine a média, a moda e a mediana em cada caso:

a) Em uma casa de repouso, as pessoas internadas têm as seguintes idades: idade Nº de pessoas 67 3 68 4 71 3 72 2 73 4 74 4 75 5 77 3 78 2 80 3 84 4 85 3 total 40

b) Considere a tabela, que representa a distribuição das áreas cultivadas, em hectares, de uma determinada região.

Dados: xi: área em hectares, fi: número de áreas cultivadas.

xi fi [0; 2[ 30 [2; 4[ 35 [4; 6[ 60 [6; 8[ 35 [8; 10[ 15 [10; 12[ 8 [12; 14[ 2

4. A tabela abaixo indica os Custos, de uma determinada empresa, com encargos salariais:

Custos fi [450; 550[ 8 [550; 650[ 10 [650; 750[ 11 [750; 850[ 16 [850; 950[ 13 [950; 1.050[ 5 [1.050; 1.150] 1 Determine: a) a classe modal; b) a moda da distribuição; c) a classe mediana; d) a mediana da distribuição;

(13)

5. A tabela seguinte fornece o número de erros gráficos por página de certo livro.

número de erros 0 1 2 3 4

número de páginas 84 25 8 2 1

Calcular:

a) o número médio de erros por página b) o número mediano

c) qual é a moda da distribuição?

6. Numa pesquisa entre 250 famílias de certa cidade constataram-se os seguintes dados:

nº de filhos 0 1 2 3 4 5 6 7

nº de famílias 45 52 48 55 30 10 8 2

Para a distribuição do número de filhos, calcular a média, a mediana e a moda.

7. Se os dados do problema anterior estivessem computados como segue:

nº de filhos 0 1 2 3 4 mais do que

4

nº de famílias 45 52 48 55 30 20

qual das três medidas nós teríamos dificuldades para calcular?

8. Os dados seguintes referem-se ao tempo de vida (durabilidade) de 150 lâmpadas elétricas de certa fabricação, em centenas de horas.

Duração nº de lâmpadas 0 | 4 4 4 | 8 12 8 | 12 40 12 | 16 41 16 | 20 27 20 | 24 13 24 | 28 9 28 | 32 4

9. A média dos salários dos funcionários de uma determinada empresa é 5 salários mínimos (5 SM), enquanto que a mediana é 4 SM. Sorteando-se ao acaso um dos funcionários, o que é mais provável: que ele ganhe mais ou que ele ganhe menos do que a média dos salários? 10. Uma prova foi aplicada a três classes, de 40, 48 e 46 alunos, e as médias de cada classe

foram 6,0, 6,6 e 5,8, respectivamente. Qual é a média para os 134 alunos que fizeram a prova?

11. Quando a medida de posição deve ser o valor mais típico da distribuição utilizamos:

a) a média b) a mediana c) a moda d) a moda ou a média a) Qual é a moda?

b) Calcular a vida média das lâmpadas. c) Qual é a mediana?

(14)

12. Quando desejamos o ponto médio exato de uma distribuição de freqüência, basta calcular: a) a média b) a moda c) a mediana d) as três

13. Considere uma série estatística com 2351 elementos. A posição da mediana é representada pelo:

a) 1175º elemento b) 1176º elemento

c) ponto médio entre o 1175º e o 1176º elemento d) 1174º elemento

14. Um professor, após verificar que toda a classe obteve nota baixa, eliminou as questões que não foram respondidas pelos alunos. Com isso, as notas de todos os alunos foram aumentadas de 3 pontos. Então:

a) a média aritmética ficou alterada, assim como a mediana. b) apenas a média aritmética ficou alterada.

c) apenas a mediana ficou alterada.

d) não houve alteração nem na média nem na mediana.

e) nada podemos afirmar sem conhecer o número total de alunos.

15. Calcule o número médio, mediano e modal de acidentes por dia em uma determinada esquina. Números de acidentes por dia (xi) Números de dias (fi) 0 30 1 5 2 3 3 1 4 1 Total 40

16. O gráfico abaixo mostra a distribuição de freqüências das notas obtidas pelos alunos, da 2ª série do ensino médio, numa prova de Geografia. Determine:

i. a mediana dessa distribuição; ii. a moda dessa distribuição iii. a média das notas.

(15)

17. As notas de um candidato em seis provas de um concurso foram: 8,4 ; 9,1 ; 7,2 ; 6,8 ; 8,7 ; 7,2 Determine: a) a nota média; b) a nota mediana; c) a nota modal.

18. Os salários-hora de cinco funcionários de uma companhia são: R$ 75 ; R$ 90 ; R$ 83 ; R$ 142 ; R$ 88

a) qual o salário médio? b) qual o salário mediano?

19. Considere as notas obtidas pelos alunos de uma classe em uma determinada prova: Notas Nº de alunos 2 1 3 3 4 6 5 10 6 13 7 8 8 5 9 3 10 1 Calcule: a) a nota média; b) a nota mediana; c) a nota modal.

20. A partir de uma amostra de 70 pessoas obteve-se a tabela a seguir com as estaturas dos entrevistados: Estaturas (cm) frequência 150├ 158 5 158├ 166 12 166├ 174 18 174├ 182 27 182├ 190 8 Determine, para essa distribuição:

a) a média; b) a mediana; c) a moda;

(16)

21. Os pesos de 40 pessoas que estavam fazendo um tratamento de emagrecimento numa determinada clínica de São Paulo foram agrupados na tabela a seguir:

Pesos (kg) fi 145 ├ 151 10 151 ├ 157 9 157 ├ 163 8 163 ├ 169 6 169 ├ 175 3 175 ├ 181 3 181 ├ 187 1 Determine, para essa distribuição:

a) a média; b) a mediana; c) a moda;

22. Considerando a distribuição abaixo, determine: xi fi 3 4 4 8 5 11 6 10 7 8 8 3 a) a média; b) a mediana; c) a moda.

23. O histograma abaixo apresenta a distribuição de freqüência das faixas salariais numa pequena empresa.

(17)

24. Obtenha a mediana nos casos a seguir: a) 12, 15, 10, 13, 11, 19 b) 7, 7, 5, 4, 3, 5, 5, 2, 3 c) idade Frequencia 10 5 11 7 12 6 13 8 total 26 d) idade Frequencia 12 7 13 9 14 6 15 11 total 33 e) Salários (R$) Frequencia 500 |-- 1000 17 1000 |-- 1500 12 1500 |-- 2000 11 2000 |-- 2500 5 total 45 Respostas 1) a) x=46,1 Mo = 44 Md = 46 b) x=2,6 Mo = 3 Md = 2,5 2) x=13,9 Mo = 16 Md = 16 3)a) x=75,3 Mo = 75 Md = 74,5 b) x=5,02 Mo=5 Md = 4,92 4) a) [750; 850[ b) 812,5 c) [750; 850[ d) 768,8

(18)

e) Histograma 0 2 4 6 8 10 12 14 16 18 500 600 700 800 900 1000 1100 custos fr e q u ê n c ia f) 754,7 5) a) 0,425 b) 0 c) 0 6) x=2,18 Mo = 3 Md = 2 7) média 8) a) 12,27 b) 14,53 c) 13,85 9) menos 10) 6,15 11) c 12) c 13) b 14) a

15) média = 0,45 ; moda = 0; mediana = 0 16) a) 6,6 b) 7 c) 7 17) a) 7,9 b) 7,8 c) 7,2 18) a) R$ 95,6 b) R$ 88 19) a) 5,9 b) 6 c) 6 20) a) 172,4 b) 174 c) 176,6 21) a) 159,4 b) 157,8 c) 150,5 22) a) 5,4 b) 5 c) 5 23) x=708,33 Mo = 291,67 Md = 428,57 24) a) R$ 12,5 b) R$ 5 c) R$ 12 d) R$ 14 e) R$ 1229,17

(19)

6. Separatrizes

1. Conceitos

Um exemplo de separatrizes que vimos anteriormente é a mediana. Ou seja, separatrizes são números reais que dividem a seqüência ordenada de dados (rol) em partes que contêm determinada quantidade de elementos da série. Desta forma, a mediana que divide a seqüência ordenada em dois grupos, cada um deles contendo 50% dos valores da seqüência. Além da mediana, as outras medidas separatrizes que veremos são: quartis, decis e percentis.

2. Quartis

Os quartis dividem uma distribuição de freqüência em quatro partes iguais. máx Q3 Q2 Q1 mín 75% 50% 25%

Para determinarmos a classe que contém o quartil, devemos calcular a posição do elemento correspondente ao quartil desejado. Essa posição é dada por:

o 4 n       para o Q1 e o 4 n 3      para Q3.

A fórmula para o cálculo dos i-ésimo quartil (i=1,2,3) é:

h . f F n . 4 i L Q Q ant Q i             − + = onde:

LQ = limite inferior da classe que contém o quartil

i = número do quartil a ser calculado (1,2 ou 3) n = tamanho da amostra

Fant = frequência acumulada anterior à classe que contém o quartil

fQ = frequência simples (ou absoluta) da classe que contém o quartil

(20)

3. Decis

Os decis dividem uma distribuição de freqüência em dez partes iguais. D1(10%), D2(20%), D(30%), . . . ,D9(90%)

Para determinarmos a classe que contém o i-ésimo decil, devemos calcular a posição do elemento correspondente ao decil desejado. Essa posição é dada por:

o 10 n .i     

A fórmula para o cálculo dos i-ésimo decil (i=1,2,...,9) é:

h . f F n . 10 i L D D ant D i             − + = onde:

LD = limite inferior da classe que contém o decil

i = número do decil a ser calculado (1,2,...,9) n = tamanho da amostra

Fant = frequência acumulada anterior à classe que contém o decil

fD = frequência simples (ou absoluta) da classe que contém o decil

h = amplitude da classe que contém o decil

4. Percentis

Os percentis dividem uma distribuição de freqüência em cem partes iguais. P1(1%), P2(2%), P3(3%), . . . , P99(99%)

Para determinarmos a classe que contém o i-ésimo percentil, devemos calcular a posição do elemento correspondente ao percentil desejado. Essa posição é dada por:

o 100 n .i     

A fórmula para o cálculo dos i-ésimo percentil (i=1,2,...,99) é:

h . f F n . 100 i L P P ant P i           − + =

(21)

LP = limite inferior da classe que contém o percentil

i = número do percentil a ser calculado (1,2,..., 99) n = tamanho da amostra

Fant = frequência acumulada anterior à classe que contém o percentil

fP = frequência simples (ou absoluta) da classe que contém o percentil

h = amplitude da classe que contém o percentil

Importante: se observarmos que os quartis, decis e percentis são múltiplos dos percentis, então basta estabelecer a fórmula de cálculo dos percentis. Todas as outras medidas podem ser identificadas como percentis. A fórmula utilizada é a mesma usada para o cálculo da mediana.

Desta forma: Q1 = P25 Q2 = P50 = Md Q3 = P75

5. Exemplo

Considere uma tabela de custos: Custos R$ Freqüência fi Fi posições 450 |─ 550 8 8 1ª a 8ª 550 |─ 650 10 18 9ª a 19ª 650 |─ 750 11 29 20ª a 29ª 750 |─ 850 16 45 30ª a 45ª 850 |─ 950 13 58 46ª a 58ª 950 |─ 1050 5 63 59ª a 63ª 1050 |─ 1150 1 64 64ª Total 64 -- -- Calcule: a) Q1

A posição ocupada pelo primeiro quartil é 16 4 64 =

ª posição, que corresponde a classe 550 |─ 650. Aplicando a fórmula: 630 100 . 10 8 64 . 4 1 550 Q1 =             − + = reais. D1 = P10 D2 = P20 D3 = P30 D4 = P40 D5 = P50 = Md D6 = P60 D7 = P70 D8 = P80 D9 = P90

(22)

b) Q3

A posição ocupada pelo terceiro quartil é 48 4

64 .

3 =

ª posição, que corresponde a classe 850 |─ 950. Aplicando a fórmula: 08 , 873 100 . 13 45 64 . 4 3 850 Q3 =             − + = reais. c) D9

A posição ocupada pelo nono decil é 57,6 10

64 .

9 =

~ 58ª posição, que corresponde a classe 850 |─ 950. Aplicando a fórmula:

92 , 946 100 . 13 45 64 . 10 9 850 D9 =             − + = reais. d) P38

A posição ocupada pelo 38º percentil é 24,32 100

64 . 38 =

~ 24ª posição, que corresponde a classe 650 |─ 750. Aplicando a fórmula:

45 , 707 100 . 11 18 64 . 100 38 650 P38 =             − + = reais. e) P25

Lembre-se que o 25º percentil corresponde ao primeiro quartil, que calculamos anteriormente. Assim: P25 = Q1 = 630 reais.

6. Exercícios

1) Em uma série ordenada, qual é o percentual de elementos que ficam à esquerda de cada uma das medidas separatrizes:

(23)

c) D2

d) Q3

e) Q2

f) D8

g) P70

2) Em uma série ordenada, qual é o percentual de elementos que ficam à direita de cada uma das medidas separatrizes:

a) D4 b) P80 c) Q3 d) P2 e) P20 f) D5 g) Q1

3) Qual é o percentual de elementos de uma série ordenada que se situam entre: a) Q1 e Q3 b) P10 e P90 c) D2 e D6 d) Q1 e D3 e) D3 e P45 f) Q2 e D8 g) D3 e Q3

4) Se uma série ordenada possui 180 elementos, dê o número aproximado de elementos que se situam: a) acima do P20 b) acima do Q3 c) entre o P10 e o P80 d) entre o Q3 e P80 e) abaixo do P90 f) entre o Q1 e Q3 g) entre o P90 e P92

5) A distribuição de freqüência abaixo representa a idade de 50 alunos de uma classe de primeiro ano de uma Faculdade:

Idade (anos) Nº de alunos

17 3 18 18 19 17 20 8 21 4 Total 50 Calcule: a) Q1 b) D1 c) Q3 d) P95

(24)

6) A distribuição de freqüência abaixo representa o consumo por nota de 54 notas fiscais emitidas durante um dia em uma loja de departamentos.

Classe Valor da nota R$ Nº de notas 1 0 | 50 10 2 50 | 100 28 3 100 | 150 12 4 150 | 200 2 5 200 | 250 1 6 250 | 300 1 Total 54 Calcule: a) Q1 b) D3 c) Q3 d) D7 e) P98

f) O gerente desta loja de departamentos decidiu premiar a nível promocional com um brinde, 10% dos fregueses que mais consumirem. A partir de qual valor de consumo da nota fiscal os clientes seriam premiados?

g) O mesmo gerente, decide enviar uma mala direta aos 22% consumidores que menos gastaram nessa loja. Devem receber a mala-direta os clientes que consumiram até qual valor?

Respostas

1) a) 10% b) 25% c) 20% d) 75% e) 50% f) 80% g) 70% 2) a) 60% b) 20% c) 25% d) 98% e) 80% f) 50% g) 75% 3) a) 50% b) 80% c) 40% d) 5% e) 15% f) 30% g) 45% 4) a) 144 b) 45 c) 126 d) 9 e) 162 f) 90 g) 3,6 ~ 4 5) a) 18 b) 18 c) 19 d) 21 6) a) 56,25 b) 61,07 c) 110,42 d) 99,64 e) 246,00 f) D90 = 144,17 g) P22 = 53,36

(25)

7. Gráfico Box–Plot

1. Amplitude Interquartílica

A amplitude interquartílica também pode ser chamada de intervalo interquartílico ou amplitude interquartil. É definida como sendo a diferença entre o terceiro e o primeiro quartil, ou seja:

IQ = Q3 – Q1 .

Interpretação: o IQ representa a variação correspondente aos 50% dos valores centrais da distribuição.

O IQ é uma medida de variação que fornece uma idéia de quanto 50% dos dados varia. Também pode ser usado para identificar valores discrepantes. Qualquer valor de

dado que seja maior que 1,5 IQs à esquerda de Q1 ou à direita de Q3 é um valor

discrepante.

2. Box–plot

É um tipo de gráfico que também é conhecido como caixa–e–bigodes. Uma aplicação

importante dos quartis é representar conjuntos de dados usando o gráfico box–plot ou

caixa-e-bigodes. Um gráfico box–plot é uma ferramenta de análise de dados

exploratória que enfatiza as características mais importantes de um conjunto de dados. Para representar graficamente um gráfico caixa-e-bigodes, você deve saber os valores a seguir. 1. A entrada mínima. 2. O primeiro quartil Q1. 3. A mediana Q2 ou Md. 4. O terceiro quartil Q3. 5. A entrada máxima.

Esses cinco números são chamados de Regra dos cinco itens de um conjunto de

dados.

Desenhando um gráfico box–plot:

1. Encontre a regra dos cinco itens do conjunto de dados.

2. Construa uma escala horizontal que transpasse a amplitude dos dados. 3. Represente os cinco números sobre a escala horizontal.

4. Desenhe uma caixa acima da escala horizontal a partir de Q1 para Q3 e desenhe

uma linha vertical na caixa em Q2 (= mediana).

5. Desenhe os bigodes a partir da caixa para as entradas mínimas e máximas. O gráfico fica com o seguinte aspecto:

(26)

3. Detectando assimetrias através do box-plot

A figura, a seguir, demonstra a relação entre o box-plot e o polígono para quatro

diferentes tipos de distribuição. (Observação: A área abaixo de cada polígono está dividida em quartis, correspondendo ao resumo de cinco números para o box-plot.)

Os painéis A e D da figura são simétricos. Nessas distribuições, a média aritmética e a mediana são iguais. Além disso, o comprimento do bigode esquerdo é igual ao comprimento do bigode direito, e a linha mediana divide a caixa pela metade.

O Painel B é assimétrico à esquerda. Os poucos valores baixos distorcem a média aritmética em direção à cauda esquerda. Para essa distribuição assimétrica à esquerda, a assimetria indica que existe uma forte concentração de valores no ponto mais alto da escala (ou seja, o lado direito); 75% de todos os valores se encontram entre a extremidade direita da caixa (Q1) e o final do bigode direito. Por conseguinte, o longo

bigode à esquerda contém somente os 25% valores mais baixos, demonstrando a distorção da simetria nesse conjunto de dados.

O Painel C é assimétrico à direita. A concentração de valores está na extremidade inferior da escala (ou seja, no lado esquerdo do box-plot). Nesse caso, 75% de todos os

valores de dados são encontrados entre o início do bigode esquerdo (Xmenor) e a

extremidade direita da caixa, Q3, enquanto os 25% de observações restantes estão

(27)

4. Exemplos

Exemplo 1: as notas dos testes de 15 funcionários matriculados em um curso de

treinamento de CPR são listadas a seguir:

13 9 18 15 14 21 7 10 11 20 5 18 37 16 17

a) Encontre o primeiro, o segundo e o terceiro quartis das notas dos testes. b) Calcule o intervalo interquartílico e verifique se há valores discrepantes. c) Construa o box-plot e interprete.

Resolução

a) Primeiro, ordene o conjunto de dados e encontre a mediana Md=Q2. Depois de

encontrar Q2, divida o conjunto de dados em duas metades. O primeiro e o terceiro

(28)

b) IQ = 18 – 10 = 8. Então, 1,5 IQS à direita de Q3 é Q3 + 1,5 . 8 = 18 + 12 = 30. Como

37 > 30, então 37 é um valor discrepante. c) O box–plot é:

Você pode tirar diversas conclusões com o gráfico. Uma delas é que aproximadamente metade das notas está entre 10 e 18. Olhando para o comprimento do bigode direito, podemos concluir também que a nota 37 é um possível valor discrepante (o que foi, de

fato, constatado no item anterior).

Exemplo 2: suponha que um produtor de laranjas costuma guardar as frutas em caixas

e está interessado em estudar o número de laranjas por caixa. Após um dia de colheita, 20 caixas foram contadas. Os resultados foram: 48, 35, 37, 52, 43, 29, 61, 33, 44, 55, 69, 43, 22, 35, 38, 57, 53, 67, 62 e 48. Construa um box–plot para esse conjunto de

dados.

Para os dados apresentados, temos que Md = 46, Q1 = 36,5 e Q3 = 55,5. Também temos

que o número mínimo de laranjas em uma caixa é 22 e o número máximo, 69. O box-plot correspondente é apresentado na figura seguinte:

(29)

Exemplo 3: a representação gráfica através do box-plot é bastante rica no sentido de

informar, entre outras coisas, a variabilidade e simetria dos dados. Note que na figura anterior, os dados apresentam simetria acentuada (a distância da mediana para os quartis é a mesma), o mesmo podendo ser observado a respeito da distância dos pontos de mínimo e máximo em relação à mediana. Em contraste, temos na figura seguinte o

box-plot para a variável peso, que apresenta uma pequena assimetria:

Gráficos tipo box-plot também são úteis para detectar, descritivamente, diferenças nos

comportamentos de grupos de variáveis. Por exemplo, podemos considerar gráficos da variável peso para cada sexo. O resultado é apresentado na figura seguinte, em que podemos notar que os homens apresentam peso mediano superior ao das mulheres, além de uma maior variabilidade.

(30)

5. Exercícios

1) A partir dos box–plots a seguir, identifique: o valor mínimo, o valor máximo, o primeiro

quartil, a mediana, o terceiro quartil e o intervalo interquartílico. a)

b)

c)

2) Verifique se a distribuição apresentada é simétrica, assimétrica à esquerda, assimétrica à direita ou nenhuma das alternativas.

(31)

b)

c)

d)

3) Um grupo de estudantes do Ensino Médio foi submetido a um teste de matemática resultando em: nota frequência 0 |– 2 14 2 |– 4 28 4 |– 6 27 6 |– 8 11 8 |– 10 4 Obtenha um box–plot para esses dados.

4) Um estudo pretende verificar se o problema da desnutrição em adultos medida pelo peso, em quilos, em uma região agrícola (denotada por Região A), é maior do que em uma região industria (denotada por Região B). Para tanto, uma amostra foi tomada em cada região, fornecendo as tabelas de freqüências a seguir:

(32)

Região A Peso Freqüência < 40 8 40 |– 50 25 50 |– 60 28 60 |– 70 12 ≥ 70 9 total 82 Região B Peso Freqüência < 60 10 60 |– 70 34 70 |– 80 109 80 |– 90 111 ≥ 90 55 total 319

Construa os box–plots para cada região, em um mesmo par de eixos, e discuta se há

evidências de que o grau de desnutrição seja diferente nas duas regiões.

Respostas 1) a) Mín=10 Máx=20 Q1=13 Md = 15 Q3=17 IQ=4 b) Mín=900 Máx=2100 Q1=1250 Md = 1500 Q3=1950 IQ=700 c) Mín=–1,9 Máx=2,1 Q1=–0,5 Md = 0,1 Q3=0,7 IQ=1,2 2) a) nenhum b) assimétrica à direita c) assimétrica à esquerda d) simétrica 3) Mín=0 Máx=10 Q1=2,48 Md = 4,00 Q3=5,56 4) Região A: Mín=20 Máx=90 Q1=11,63 Md = 43,40 Q3=56,79 Região B: Mín=400 Máx=110 Q1=73,27 Md = 80,57 Q3=87,76 A Região B tem medidas superiores às da Região A.

(33)

8. Medidas de Dispersão

1. Introdução

Conforme dissemos anteriormente, as medidas de tendência central não são suficientes para caracterizar totalmente uma seqüência numérica.Se observarmos as seqüências: X: 10, 1, 18, 20, 35, 3, 7, 15, 11, 10.

Y: 12, 13, 13, 14, 12, 14, 12, 14, 13, 13. Z: 13, 13, 13, 13, 13, 13, 13, 13, 13, 13.

concluiremos que todas possuem a mesma média 13. No entanto, são seqüências completamente distintas do ponto de vista da variabilidade de dados.

Na seqüência Z não há variabilidade de dados, visto que todos os valores coincidem

com a média. Na seqüência Y, a média 13 representa bem a série, mas existem elementos da série levemente diferenciados da média 13, ou seja, há baixa variabilidade. Na seqüência X existem muitos elementos bastante diferenciados da média 13, indicando uma alta variabilidade ao redor da média.

Para avaliar o grau de variabilidade dos dados em torno da média, usaremos as

medidas de dispersão: desvio médio, variância e desvio padrão.

2. Desvio Médio

O conceito estatístico de desvio corresponde ao conceito matemático de distância. A dispersão dos dados em relação à média de uma seqüência pode ser avaliada através dos desvios de cada elemento da seqüência em relação à média da seqüência. O desvio médio é definido como sendo uma média aritmética dos desvios de cada elemento da série para a média da série, ou seja,

n x x . f DM=

i i −

Exemplo 1: Considere as notas 2, 8, 5, 6 obtidas por 4 alunos, numa avaliação de

Biologia. Determine o desvio médio. Inicialmente, calcularemos a média:

25 , 5 4 6 5 8 2 x = + + + =

Agora, calculamos o desvio médio, lembrando que fi = 1, visto que cada um dos quatro

(34)

= − =

n x x . f DM i i 75 , 1 4 7 4 75 , 0 25 , 0 75 , 2 25 , 3 4 | 75 , 0 | | 025 , | | 75 , 2 | | 25 , 3 | 4 | 25 , 5 6 | | 25 , 5 5 | | 25 , 5 8 | | 25 , 5 2 | = = + + + = = + − + + − = − + − + − + − =

Interpretação: Em média, cada elemento da seqüência está afastado do valor 5,25 por

1,75 unidades.

3. Variância (s

2

ou

σ

2

) e Desvio padrão (s ou

σ

)

Pelo exemplo anterior, observamos que a dificuldade em se operar o DM se deve à presença do módulo, para que as diferenças xi – x possam se interpretadas como

distâncias. Outra forma de se conseguir que as diferenças xi – x se tornem sempre

positivas ou nulas é considerar o quadrado destas diferenças, isto é, (xi – x )2. Se

substituirmos, na fórmula do DM a expressão xi −x por (xi – x )2, obteremos nova

medida de dispersão chamada variância.

A variância populacional é representada por σσσσ2 (sigma ao quadrado), enquanto que a

variância amostral é representada por s2. O símbolo σ é a letra grega minúscula sigma. A fórmula geral da variância populacional e da variância amostral são, respectivamente:

(

)

n x fi. i 2 2 =

−µ σ e

(

)

1 n x x . f s 2 i i 2 − − =

O desvio padrão é a raiz quadrada da variância, ou seja

2

σ =

σ ou s= s2 .

De modo mais simples, podemos generalizar: DP = Var .

Quando estamos trabalhando com uma amostra, sem conhecermos o verdadeiro valor da média ou do desvio padrão, admitimos que a média da amostra ( x ) esteja próxima do valor da média populacional, e que a variância da amostra (variância amostral)

esteja próxima da variância populacional. A raiz quadrada da variância amostral é chamada desvio padrão amostral.

(35)

4. Desvio-padrão

××××

Variância

É natural a pergunta: qual das duas medidas é melhor? Na verdade, não há uma melhor que a outra, visto que são idênticas (basta extrair a raiz de uma ou elevar a outra ao quadrado). Porém, o desvio-padrão é muito melhor no sentido de facilitar a interpretação. Por exemplo, se calcularmos a variância de uma variável X que representa a idade em um conjunto de dados obtendo Var(X) = 25 anos2, teríamos dificuldades de interpretar o resultado. Afinal, qual o significado de anos2 ? Porém, o desvio-padrão nos daria DP(X) = 5 anos, que possui uma interpretação concreta.

Isso ocorre porque no cálculo da variância, quando elevamos ao quadrado a diferença (xi– x ) ou (xi–µ), a unidade de medida da série fica também elevada ao quadrado.

Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Se os dados são expressos em metros, a variância é expressa em metros quadrados. Em algumas situações, a unidade de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A variância será expressa em litros quadrados.

Portanto, o valor da variância não pode ser comparado diretamente com os dados da série, ou seja: variância não tem interpretação.

Exatamente para suprir esta deficiência da variância é que se utiliza o desvio padrão. Como o desvio padrão é a raiz quadrada da variância, o desvio padrão terá sempre a mesma unidade de medida da série e, portanto admite interpretação.

5. Exemplos

Exemplo 2: Considere as notas 2 – 8 – 5 – 6 obtidas por 4 alunos, numa avaliação de

Biologia, distribuídas na tabela abaixo. Calcule o desvio padrão considerando-se uma população. Cálculo da média: 5,25 4 6 5 8 2+ + + = = µ .

Cálculo da variância populacional:

6875 , 4 4 75 , 18 4 ) 25 , 5 6 ( ) 25 , 5 5 ( ) 25 , 5 8 ( ) 25 , 5 2 ( 2 2 2 2 2 = − + − + − + − = = σ .

O desvio padrão corresponde à raiz quadrada da variância: 17 , 2 6875 , 4 = = σ .

(36)

Exemplo 3: Calcule o desvio padrão da série abaixo, considerando-se uma população. xi fi 2 3 3 5 4 8 5 4 Total 20 Cálculo da média: 3,65 20 5 . 4 4 . 8 3 . 5 2 . 3 + + + = = µ .

Cálculo da variância populacional:

9275 , 0 20 55 , 18 20 ) 65 , 3 5 .( 4 ) 65 , 3 4 .( 8 ) 65 , 3 3 .( 5 ) 65 , 3 2 .( 3 2 2 2 2 2 = − + − + − + − = = σ .

O desvio padrão corresponde à raiz quadrada da variância: 96 , 0 9275 , 0 = = σ .

Assim, os dados variam, em média, 0,96 unidades ao redor da média 3,65.

Exemplo 4: Calcule o desvio padrão da série abaixo, representativa de uma amostra. Classe Int. classe fi xi 1 0 | 4 1 2 2 4 | 8 3 6 3 8 | 12 5 10 4 12 | 16 1 14 Total 10 -- Cálculo da média: 8,4 10 14 . 1 10 . 5 6 . 3 2 . 1 + + + = = µ .

Cálculo da variância amostral:

3111 , 10 9 8 , 92 1 10 ) 4 , 8 14 .( 1 ) 4 , 8 10 .( 5 ) 4 , 8 6 .( 3 ) 4 , 8 2 .( 1 s 2 2 2 2 2 = = − − + − + − + − = .

O desvio padrão amostral corresponde à raiz quadrada da variância amostral: 2 , 3 3111 , 10 s = = .

Assim, os dados variam, em média, 3,2 unidades ao redor da média 8,4.

Lembre-se que quando estamos trabalhando com classes, xi corresponde ao

PONTO MÉDIO de cada classe. Assim, se a classe é a | b, teremos

2 b a xi = + .

(37)

4. Coeficiente de variação (CV)

Vamos imaginar duas pessoas A e B. O indivíduo A possui R$ 10 na sua carteira e, desse valor, ele perde R$ 2. O indivíduo B possui R$ 100 e perde R$ 5. Podemos fazer duas perguntas:

1) Qual das pessoas perdeu mais dinheiro?

2) Qual das pessoas perdeu, proporcionalmente, mais dinheiro?

Para a primeira questão, fica evidente que foi o indivíduo B, visto que R$ 5 é maior que R$ 2. Porém, quando analisamos relativamente, a resposta da questão 2 passa a ser o indivíduo A, pois, percentualmente, A perdeu 2/10 = 0,2 ou 20% do que possuía na carteira enquanto que B perdeu 5/100 = 0,05 ou 5% do que possuía. Esse conceito de relatividade é exatamente o que propõe o coeficiente de variação.

Transformando o problema anterior em termos estatísticos, se uma série X apresenta

x=10 e σx= 2 e uma série Y apresenta y = 100 e σy = 5, do ponto de vista da dispersão

absoluta, a série Y apresenta maior dispersão que a série X. No entanto, se levarmos em consideração as médias das séries, o desvio padrão de Y que é 5 em relação a 100 é um valor menos significativo que o desvio padrão de X que é em relação a 10.

O coeficiente de variação é indicado por

µ σ = CV ou x s CV= .

Calculando, então, o coeficiente de variação das séries citadas tem: CVx = 2 10 = 0,2 ou 20% CVy = 5 100 = 0,05 ou 5%

Comparando os valores destes dois coeficientes concluímos que a série X admite maior dispersão relativa. Como a medida de dispersão relativa leva em consideração a medida de dispersão absoluta e a média da série, é uma medida mais completa que a medida de dispersão absoluta.

5. O uso do desvio padrão

O desvio padrão é a mais importante das medidas de dispersão.

Quando temos um conjunto de de dados cuja distribuição é Normal, o formato de seu histograma se assemelha a de um sino, é uma curva simétrica e, ainda, a média a moda e a mediana possuem exatamente o mesmo valor (ou são, no caso de uma amostra, muito próximos), conforme vemos na figura abaixo.

(38)

Sob a suposição de Normalidade, podemos afirmar que o intervalo [µ-σ,µ+σ] contém aproximadamente 68% dos valores da série.

O intervalo [µ - 2 σ, µ + 2 σ] contém aproximadamente 95% dos valores da série.

O intervalo [µ - 3 σ, µ + 3 σ] contém aproximadamente 99% dos valores da série.

Esses percentuais 68%, 95% e 99% citados na interpretação serão comprovadas, com maior precisão, no estudo da distribuição normal de probabilidades. Quando a

distribuição não é perfeitamente simétrica estes percentuais apresentam pequenas variações para mais ou para menos, segundo o caso.

Se um conjunto tiver média µ = 100 e desvio padrão σ = 5, podemos interpretar estes valores da seguinte forma:

a) Os valores da série estão concentrados em torno de 100.

b) O intervalo [95, 105] contém aproximadamente, 68% dos valores da série. c) O intervalo [90, 110] contém aproximadamente, 95% dos valores da série. d) O intervalo [85, 115] contém aproximadamente, 99% dos valores da série.

É importante perceber que, ao aumentar o tamanho do intervalo, aumenta-se o percentual de elementos contido no intervalo.

Exemplo 5: foi observado que as contas de luz para uma área municipal, no mês de

junho, são normalmente distribuídas. Se a média das contas for $ 42,00 e o desvio padrão populacional foi $ 12,00, entre que intervalo de valores estão 68% das contas? E 95% das contas?

µ – σ = 42,00 – 12,00 = 30,00 µ + σ = 42,00 + 12,00 = 54,00

68% das contas estão entre os valores de $ 30,00 e $ 54,00 µ – 2 σ = 42,00 – 2 . 12,00 = 42,00 – 24,00 = 18,00 µ + 2 σ = 42,00 + 2 . 12,00 = 42,00 + 24,00 = 66,00

68%

Zona de normalidade (2S) - S

x

+ S

(39)

6. Exercícios

1) Calcule o desvio padrão da distribuição populacional:

Classes 2 | 6 | 10 | 14 | 18 | 22

fi 5 12 21 15 7

2) Em um exame final de Matemática, o grau médio de um grupo de 150 alunos foi 7,8 e o desvio padrão, 0,80. Em Estatística, entretanto, o grau médio final foi 7,3 e o desvio padrão, 0,76. Em que disciplina foi maior a dispersão?

3) Medidas as estaturas de 1017 indivíduos, obtivemos x = 162,2 cm e s = 8,01 cm. O peso médio desses mesmos indivíduos é 52 kg, com um desvio padrão de 2,3 kg. Esses indivíduos apresentam maior variabilidade em estatura ou em peso?

4) Um grupo de 85 moças tem estatura média de 160,6 cm, com um desvio padrão igual a 5,97 cm. Outro grupo de 125 moças tem uma estatura média de 161,9 cm, sendo o desvio padrão igual a 6,01 cm. Qual é o coeficiente de variação de cada um dos grupos? Qual o grupo mais homogêneo?

5) Um grupo de cem estudantes tem uma estatura média de 163,8 cm, com um coeficiente de variação de 3,3%. Qual o desvio padrão desse grupo?

6) Uma distribuição apresenta as seguintes estatísticas: σ = 1,5 e CV = 2,9%. Determine a média da distribuição.

7) Numa fábrica de rolamentos, retirou-se da produção de um determinado dia uma amostra de 10 rolamentos, dos quais se mediu o diâmetro externo, em mm, obtendo-se:

20,2 21,4 20,8 19,6 22,1 21,7 20,4 22,0 20,5 19,3

Calcular a média e o desvio padrão desta amostra.

8) Calcular a média e o desvio padrão da seguinte distribuição amostral de uma variável X.

faixas de observações freqüência

0 | 10 25 10 | 20 48 20 | 30 66 30 | 40 44 40 | 50 17 Total 200

(40)

9) Em 120 experimentos, onde cada um consiste em lançar 3 moedas e contar o número de caras, obtivemos os seguintes resultados:

Nº de caras 0 1 2 3

Nº de experimentos

18 40 49 13

Calcular a média, a variância e o desvio padrão do número de caras observado nos experimentos.

10) Uma amostra de 900 lâmpadas foi testada para se determinar a durabilidade. Os dados foram:

Durabilidade em horas freqüência

1000 | 1400 150 1400 | 1800 300 1800 | 2200 450

Total 900

Na amostra testada

a) qual é a porcentagem de lâmpadas que duraram menos de 1800 horas? b) qual é a durabilidade média?

c) qual é o desvio padrão?

11) A tabela representa as estaturas de 35 crianças nascidas numa mesma maternidade numa certa semana.

estatura (cm) no de crianças 45 ├── 46 1 46 ├── 47 4 47 ├── 48 6 48 ├── 49 12 49 ├── 50 8 50 ├── 51 3 51 ├── 52 0 52 ├── 53 1

Determinar a média e o desvio-padrão das estaturas destas crianças ao nascerem.

12) Um restaurante cobra o almoço de cada cliente através do peso (por quilo) da quantidade de alimento consumida. Foi observado, durante um mês, que as quantidades de alimento consumidas são normalmente distribuídas. Se a média consumida for 550 g e o desvio padrão 200 g, calcular:

a) a amplitude dos 95% centrais. b) a amplitude dos 99% centrais.

(41)

13) Os pratos produzidos por uma indústria têm diâmetro médio de 19 cm e desvio padrão de 0,2 cm. Dois pratos A e B cujos diâmetros medem respectivamente 19,8 cm e 18,3cm serão testados pelo Controle Estatístico de Qualidade, que admite uma tolerância de três desvios acima e três abaixo da média. Assinale a alternativa correta: a) O prato A será aprovado

b) Ambos os pratos serão reprovados

c) o prato A será reprovado e o prato B aprovado d) o prato B será reprovado.

14) O desvio padrão de um conjunto de dados é 16. A variância será: a)16

b) 64 c) 256 d) 4

15) A variância de um conjunto de dados é 16. O desvio padrão será: a) 4

b) 256 c) 36 d) 2

16) Calcule o desvio padrão das seguintes populações: a) X: 2, 3, 7, 9, 11, 13.

b) Y: 5, 12, 4, 20, 13, 17.

17) Calcule o desvio padrão das seguintes amostras: a) Z: 15, 16, 17, 20, 21.

b) T: 6, 5, 10, 12, 19.

18) Uma fábrica corta bambus para a confecção de cercas. Cada corte deve ter um comprimento médio de 180cm e apresenta um desvio-padrão de 1,5cm. Após cortados, os bambus passam por um controle de qualidade que rejeita cortes que estejam com 2 desvios-padrão acima ou abaixo da média especificada. Seis bambus, A, B, C D, E e F foram medidos pelo controle de qualidade e os valores obtidos são apresentados na tabela a seguir. Quais deles o controle deve aprovar e quais deve rejeitar?

bambu comprimento A 178,5cm B 183,4cm C 176,2cm D 175,8cm E 182,7cm F 180,0 cm

(42)

19) Considere a tabela seguinte que mostra o número de unidades vendidas por dia de certo produto numa loja:

Nº de unid. vendidas por dia Nº de dias

0 15 1 13 2 11 3 8 4 3 Total Determine:

a) o desvio padrão amostral; b) o coeficiente de variação; c) o desvio médio.

20) Seja a amostra:

idade Freqüência absoluta 10 ├ 20 10 20 ├ 30 7 30 ├ 40 3 Total 20 Determine: a) a média; b) a variância; c) o desvio-padrão; d) o coeficiente de variação; e) o desvio médio.

21) Dados: CV=7,3% e x =25, calcule o desvio padrão amostral. 22) Dados CV=12% e s=36, calcule a média amostral.

23) Uma máquina empacota café com média 500g e desvio padrão 12g. O controle de qualidade da empresa rejeita pacotes cujo peso ultrapasse 2 desvios padrão da média. Qual dos pacotes a seguir serão rejeitados pelo controle de qualidade?

A = 515 g B = 490 g C = 470 g D = 525 g E = 477 g F = 500 g G = 532 g

24) Os tempos despendidos por 12 alunos, elementos de uma população, em segundos para percorrer certo trajeto foram 16, 17, 16, 20, 18, 16, 17, 19, 21, 22, 16 e 23. Sem agrupar os dados, calcule:

(43)

d) a variância; e) o desvio padrão;

f) o coeficiente de variação.

Respostas

1) σ=4,45

2) CV(Mat)=0,103 ; CV (Estat)=0,104. Logo a maior dispersão foi na Estatística. 3) CV (altura)=0,0493 ; CV(peso)=0,0442. Maior variabilidade na altura. 4) CV85 = 0,03717 CV125 = 0,03712 grupo de 125 pessoas é mais homogêneo

5) 5,4054 6) 51,72 7) x=20,8 ; s2 = 0,9556 ; s=0,9775 8) x=24 ; s2=129,6482 ; s=11,39 9) x=1,475 ; s2=0,7660 ; s=0,8752 10) a) 50% b) 1733,3 h c) 298,3 h 11) x=48,5 ; s=1,40 12) a) [150 ; 950] b) [0 ; 1150] 13) B 14) C 15) A 16) a) σ=3,99 b) σ=5,81 17) a) s=2,59 b) s=5,59 18) Aprovados: A, E, F ; Reprovados: B, C, D 19) a) s=1,25 b) 0,88 ou 88% c) 1,0704 20) a) 21,5 b) 55,5263 c) 7,45 d) 34,7% e) 6,5 21) 1,825 22) 300 23) Rejeitados: C, D, G. 24) a) 16 s b) 17,5 s c) 18,42 s d) 5,9097 s2 e) 2,43 s f) 0,1319

(44)

9. Assimetria e Curtose

1. Simetria e Assimetria

Uma distribuição de freqüência é simétrica quando a linha vertical pode ser desenhada

do meio do gráfico da distribuição e as metades resultantes são aproximadamente imagens espelhadas.

Uma distribuição de freqüência é uniforme (ou retangular) quando todas as entradas,

ou classes, na distribuição têm freqüências iguais ou aproximadamente iguais. Uma distribuição uniforme também é simétrica.

Uma distribuição de freqüências é assimétrica se a "cauda" do gráfico se alonga mais

em um dos lados. Uma distribuição é assimétrica à esquerda (negativamente

assimétrica) se a cauda se estende à esquerda, e assimétrica à direita (positivamente

assimétrica) se a cauda se estende à direita.

Quando a distribuição for simétrica e unimodal, a média, a mediana e a moda são iguais. Se a distribuição for assimétrica à esquerda, a média é menos que a mediana e a mediana é igualmente menor que a moda. Se a distribuição for assimétrica à direita, a média é maior que a mediana e igualmente maior que a moda. Exemplos dessas distribuições comuns são mostrados na figura a seguir.

Resumidamente:

Distribuição Moda, mediana e média Exemplo de distribuição

Simétrica Mo =Md = x Normal, t–Student Assimétrica à esquerda Mo > Md > x ––––––

Assimétrica à direita Mo < Md < x Qui–quadrado, F–Snedecor Fique atento que há muitas formas diferentes de distribuição. Em alguns casos, a forma pode não ser classificada como simétrica, uniforme ou assimétrica. Uma distribuição pode ter várias lacunas causadas por valores discrepantes ou por agrupamento nos dados. Os agrupamentos podem ocorrer quando diversos tipos de dados são incluídos em um conjunto de dados.

(45)

Note que a média sempre irá na direção em que a distribuição for assimétrica. Por

exemplo, quando a distribuição é assimétrica à esquerda, a média está à esquerda da mediana.

2. Curva de Densidade

A idéia básica da curva de densidade está nos histogramas. Imagine um histograma oriundo a partir de um determinado conjunto de dados. À medida em que formos construindo novos histogramas, a cada vez com um número maior de classes (ou seja, as classes vão ficando cada vez menores), passamos a perceber que os topos de cada coluna do histograma formam uma curva. Se conseguirmos um número suficientemente grande de classes (cada classe com amplitude cada vez menor) e, ainda, se esse histograma for construído utilizando uma população, teremos a curva da função densidade da distribuição. Essa é apenas uma idéia geral de como obtemos, na prática, uma função densidade, o que está esquematizado na figura seguinte.

(46)

Mediana e Média de uma Curva de Densidade

A mediana de uma curva de densidade é o ponto de áreas iguais, ou seja, o ponto que

divide ao meio a área sob a curva.

A média de uma curva de densidade é o ponto de equilíbrio, no qual a curva se

equilibraria se fosse feita de material sólido.

A mediana e a média coincidem em uma curva simétrica de densidade. Situam-se ambas no centro da curva. A média de uma curva assimétrica é afastada da mediana na direção da cauda longa.

A média de uma curva de densidade é o ponto em que ela se equilibraria.

(47)

Distribuição simétrica:

Distribuição assimétrica à esquerda:

(48)

3. Coeficiente de Assimetria

Além do método gráfico de análise, podemos trabalhar com o cálculo de um coeficiente de assimetria que nos dá informações de qual tipo de distribuição estamos tratando. Basicamente, há duas fórmulas mais utilizadas:

Primeiro coeficiente de assimetria de Pearson

σ − = x Mo AS onde: x é a média da distribuição; Mo é a moda da distribuição;

σ é o desvio padrão da distribuição.

Segundo coeficiente de assimetria de Pearson

É uma alternativa à fórmula anterior que utiliza o valor da mediana.

(

)

σ − =3x Md AS onde: x é a média da distribuição; Md é a mediana da distribuição;

σ é o desvio padrão da distribuição.

O primeiro coeficiente de Assimetria de Pearson tem o inconveniente de requerer a determinação prévia da moda. Assim, quando as distribuições não se apresentarem com forte assimetria, deve-se dar preferência ao Segundo Coeficiente de Assimetria de

Pearson.

Nos dois casos, quando:

AS = 0 a distribuição é simétrica;

AS > 0 a distribuição é assimétrica à direita; AS < 0 a distribuição é assimétrica à esquerda.

É claro que, na prática, raramente encontraremos AS=0, e, sim, muito próximo de zero. Dessa forma, temos a seguinte classificação:

– se |AS| < 0,15 então a distribuição é simétrica;

– se 0,15 |AS| < 1,0 então a distribuição é assimétrica moderada;

(49)

4. Curtose

Curtose é o grau de achatamento da distribuição quando comparada a uma distribuição simétrica bastante conhecida chamada Normal. Ou seja, a curtose mede o quanto uma curva de freqüência será achatada em relação a uma curva Normal de referência.

O coeficiente de curtose (k) ou coeficiente percentílico de curtose é dado por:

(

90 10

)

1 3 P P . 2 Q Q k − − = onde:

Q3 e Q1 são o terceiro e primeiro quartis;

P90 e P10 são o 90° e o 10° percentis.

Quanto à curtose a distribuição pode ser:

1) Mesocúrtica (ou Normal): ela não é nem achatada, nem alongada. (k = 0,263).

2) Platicúrtica: mais achatada que a Normal. (k > 0,263).

(50)

5. Exemplos

Exemplo 1: (AFRF-2002.1 – adaptado) Em um ensaio para o estudo da distribuição de

um atributo financeiro (X), foram examinados 200 itens de natureza contábil do balanço de uma empresa. Esse exercício produziu a tabela de freqüência abaixo. A coluna Classes representa intervalos de valores de X em reais e a coluna P representa a freqüência relativa acumulada. Não existem observações coincidentes com os extremos das classes. Classes frequência 70 – 90 10 90 – 110 20 110 – 130 50 130 – 150 60 150 – 170 30 170 – 190 20 190 – 210 10 Total 200

Entende-se por curtose de uma distribuição seu grau de achatamento em geral medido em relação à distribuição normal. Uma medida de curtose é dada pelo quociente k = Q / (P90 – P10), onde Q é a metade da distância interquartílica e P90 e P10 representam os

percentis de 90% e 10%, respectivamente. Assinale a opção que dá o valor da curtose k para a distribuição de X. a) 0,263 b) 0,250 c) 0,300 d) 0,242 e) 0,000 Resolução

Inicialmente, devemos calcular os quartis e percentis necessários para o cálculo da curtose. Verifique que:

Q1 = 118,0 Q3 = 156,6 P10 = 100,0 P90 = 180,0 Logo, a curtose é:

(

)

0,24125 0 , 160 6 , 38 ) 0 , 100 0 , 180 .( 2 0 , 118 6 , 156 P P . 2 Q Q k 10 90 1 3 = = − − = − −

= . Logo, a resposta do teste é a

Referências

Documentos relacionados

Após a coleta dos intervalos RR, os parâmetros da variabilidade da frequência cardíaca do domínio do tempo (desvio padrão de todos os intervalos RR, raiz quadrada da média

Após a coleta dos intervalos RR, os parâmetros da variabilidade da frequência cardíaca do domínio do tempo (desvio padrão de todos os intervalos RR, raiz quadrada da média

Sendo assim basta fazer o gráfico do desvio padrão em função da raiz quadrada do número de contagens.. Para

Dividir pelo desvio padrão significa studentizar (ou padronizar ) uma medida. Pode ser dada em

até agora e a incerteza dada pelo conjunto de dados, isto é, o desvio padrão é uma esQmaQva da incerteza de cada medida (conjunto de medidas/evento). •   Se mudamos um ou

Foram calculados os índices lineares (desvio padrão de todos os intervalos RR normais gravados em um intervalo de tempo expresso em milissegundo; raiz quadrada da média do

2 Nota: i-RR: batimentos sinusais; FC: frequência cardíaca ; SDNN: desvio padrão dos intervalos RR normais gravados em um intervalo de tempo; RMSSD: é a raiz

Recorrendo aos valores da amostra teremos de usar para estimador do valor médio, a média amostral e para estimador do desvio padrão populacional o desvio padrão da amostra. È-nos