02-ApostilaCap1e2-MaterialOpcional

(1)

Capítulo 1 CONCEITOS BÁSICOS 1.1 - População e Amostra

A Estatística utiliza extensamente os termos população e amostra, que estão definidos a seguir:

População: refere-se a todos os indivíduos ou a todos os objetos do grupo de interesse. Exemplos:

- 50 tipos de sanduíches vendidos em uma lanchonete;

- os eleitores do Brasil;

- a população do estado de Minas Gerais;

- todos os carros produzidos em uma montadora num dia.

Amostra: é um conjunto de elementos extraídos da população. Exemplos:

- 10 dos 50 tipos de sanduíches;

- os eleitores do sexo masculino;

- a população com idade superior a 30 anos;

- um lote com 20 carros.

Uma característica numérica estabelecida para toda população é denominada parâmetro, enquanto que uma característica numérica estabelecida para uma amostra é denominada

estimador.

Exemplo: Eleição para Governador de Minas Gerais.

A população é o conjunto de todos os eleitores habilitados no Estado de Minas Gerais. Um parâmetro é a proporção de votos do candidato Fulano.

Uma amostra é um grupo de 1000 eleitores selecionados em todo o estado. Um estimador é a proporção de votos do candidato Fulano obtida na amostra.

Em aplicações práticas, o número de elementos componentes de uma amostra é bastante reduzido em relação ao número de elementos componentes da população.

1.2 - Processo Estatístico de Abordagem

Quando é necessário estudar um fenômeno coletivo pode-se optar entre os seguintes processos estatísticos:

Censo: é uma avaliação direta de um parâmetro, utilizando-se todos os componentes da

população.

Estimação: é uma avaliação indireta de um parâmetro, com base em um estimador, através do

cálculo de probabilidades.

Principais características do Censo:

- Admite erro processual zero e tem confiabilidade de 100%;

- É caro;

- É lento;

- É quase sempre desatualizado;

(2)

Principais características da Estimação:

- Admite erro processual positivo e tem confiabilidade menor que 100%;

- É relativamente barata;

- É relativamente rápida;

- É atualizada;

- É sempre viável.

Erro processual é aquele relacionado apenas com o procedimento empregado, considerando-se

nulo os erros de natureza humana (erro de cálculo, de avaliação, de anotação, etc.).

1.3 - Natureza dos dados estatísticos

Normalmente, no trabalho estatístico o pesquisador se vê obrigado a lidar com grande quantidade de valores numéricos resultantes de um Censo ou de urna Estimação. Estes valores são chamados dados estatísticos. A Estatística ensina métodos racionais para a obtenção de informações a respeito de um fenômeno coletivo, além de obter conclusões válidas para o fenômeno e também permite a tomada de decisões, através dos dados estatísticos observados.

Alguns conjuntos de dados consistem em números, enquanto que outros são não numéricos, aplicando-se as expressões dados quantitativos e dados qualitativos para distinguir esses dois tipos.

Dados Quantitativos: consistem em números que representam contagens ou medidas. Exemplos: altura média dos funcionários de uma empresa, quantidade de peças

defeituosas em um processo produtivo.

Dados Qualitativos: podem ser separados em diferentes categorias que se distinguem por

alguma característica não numérica.

Exemplos: Masculino e feminino; negro e branco; europeu e asiático;

modelo simples e modelo completo.

Os dados estatísticos se obtêm mediante um processo que envolve a observação ou outra mensuração de itens tais como renda anual em uma comunidade, notas escolares... Tais itens chamam-se variáveis, porque originam valores que tendem a exibir certo grau de variabilidade quando se fazem medidas sucessivas. As variáveis podem ser divididas em discretas e contínuas.

Variáveis Discretas: assumem valores inteiros. Os dados discretos são resultado da contagem

do número de itens, ou seja, resultam de um conjunto finito de valores possíveis, ou de um conjunto enumerável desses valores.

Exemplos: número de crianças em uma amostra de 1000 famílias.

Variáveis Contínuas: podem assumir qualquer valor num intervalo contínuo. Os dados contínuos

resultam de um número finito de valores possíveis que podem ser associados a pontos em uma escala contínua de tal maneira que não haja lacunas ou interrupções.

Exemplos: peso dos estudantes de estatística do 3º período.

Quando se faz "n" observações diretas em um fenômeno coletivo, é obtida uma seqüência de "n" valores numéricos denominada dados brutos.

(3)

O conjunto de todos os "n" valores possíveis será chamado de X. Então:

x1 representa o valor da característica obtida na primeira observação do fenômeno coletivo;

x2 representa o valor da característica obtida na segunda observação do fenômeno coletivo;

. . . . . . . . . . . . xn representa o valor da característica obtida na "enésima" observação do fenômeno coletivo;

Desta forma, os dados brutos podem ser representados por X = {x1, x2, x3, ..., xn}. Esta

seqüência assim obtida apresenta-se completamente desordenada, de modo geral pode-se afirmar que os dados brutos são uma seqüência de valores numéricos não organizados, obtidos diretamente da observação de um fenômeno coletivo.

Quando são ordenados na forma crescente ou decrescente, os dados brutos passam a se chamar Rol. Portanto, rol é uma seqüência ordenada de dados brutos. Por exemplo, no final do ano letivo, um aluno obteve as seguintes notas bimestrais em Estatística: 3,0; 8,5; 6,5; 5,5. Então:

Dados Brutos: X = {3,0; 8,5; 6,5; 5,5} Rol: X = {3,0; 5,5; 6,5; 8,5}.

1.4 - Notação Sigma

A maioria dos processos estatísticos exige o cálculo da soma de um conjunto de números. Utiliza-se a letra maiúscula grega Σ (sigma) para indicar uma soma.

Exemplo: 1) X = { 3, 5, 7, 9, 11} Calcular:

∑

x

;

∑

x

2 ;

( )

∑

x

2

( ) ( ) ( ) ( ) ( )

( )

(

3

5

7

9

11 )

(

35 )

1225

285

11

9

7

5

3

35

11

9

7

5

3

2

2 =

=

+

=

∑

=

+

=

∑

=

+

∑

=

x

2) Calcular

∑

=

1

2

1

3

1

4

1 ;

;

i

x

i xi 1 8 2 3 3 7 4 9

8

11

3

8

18

7

3

8

27

9

7

3

8

1

2

1

3

1

4

1 =

=

∑

=

+

=

∑

=

+

=

∑

=

+

=

∑

=

i

x

(4)

Forma Genérica do Somatório:

n

i

x

=

+

∑

=

1

2

3 ...

Exercícios: 1)

∑

+

⋅

∑

+

∑

+

=

5

1

2

5

1

2

5

1

5

1

5

1

5

1 )

(

)

(

)

(

)

i

y

x

f

y

x

c

y

x

e

y

b

y

x

d

x

a

i xi yi 1 5 2 2 6 4 3 8 -1 4 4 5 5 3 7 2)

∑

+

∑

+

∑

−

∑

+

=

5

1

5

1

3

2

5

1

2

5

1

5

1

5

1

2 /

1

2 /

1 )

(

)

(

)

(

)

(

)

(

)

(

)

i

b

a

f

b

c

b

a

e

b

a

b

a

d

a

i ai bi 1 3 2 2 8 -3 3 5 -4 4 -2 7 5 9 4

(5)

Capítulo 2 Estatística Descritiva

2.1 - Análise de pequenos conjuntos de dados

A análise de dados freqüentemente segue linhas diferentes, conforme se trate de um grande ou de um pequeno conjunto de dados. Quando há, digamos, 30 dados pontuais ou menos, utilizam-se os métodos diretos que serão abordados a seguir. Quando a quantidade de dados for superior a 30 são mais práticos métodos que exigem primeiro o agrupamento dos dados.

Normalmente, um conjunto de números pode reduzir-se a uma ou a algumas medidas numéricas que resumem todo o conjunto. Tais medidas são de mais fácil manejo e compreensão do que os dados originais. Duas características importantes dos dados, que as medidas numéricas podem evidenciar, são:

(1) o valor central ou mais típico do conjunto; (2) a dispersão dos números.

2.1.1 - Medidas de Tendência Central

As medidas de tendência central são usadas para indicar um valor que tende a representar melhor um conjunto de números. As três medidas mais usadas são a média, a mediana e a moda.

a) Média

A média aritmética é a forma mais conhecida da "média". Calcula-se a média aritmética determinando-se a soma dos valores do conjunto e dividindo-se esta soma pelo número de valores no conjunto.

Exemplos:

1) a média dos valores 30, 50, 100 e 120 é:

75

4

120

100

50

30 +

+

₌

=

x

2) a nota média de um estudante que fez quatro provas de estatística e tirou 75, 65, 45 e 90 é:

75 ,

68

4

90

45

65

75 =

+

=

x

A média de uma amostra é representada pelo símbolo

x

, e sua expressão genérica é:

n

x

n

i

∑

i

=

1

(6)

Quando a média se refere à população, esta é representada pela letra

µ

.

;

população

da

média

amostra

da

média

x

população

da

itens

de

número

N

amostra

da

itens

de

número

n

→

µ

As principais propriedades da média são:

I) A média de um conjunto de números pode sempre ser calculada; II) Para um dado conjunto de números, a média é única;

III) A média é sensível a todos os valores do conjunto. Assim, se um valor se modifica, a média também se modifica;

IV) Somando-se uma constante a cada valor do conjunto, a média ficará aumentada do valor dessa constante. Da mesma forma na operação de subtração será diminuída do valor da constante;

V) Multiplicando-se ou dividindo-se cada valor do conjunto por uma constante, a média ficará multiplicada ou dividida por essa constante;

VI) A soma dos desvios dos números de um conjunto a contar da média é zero.

• Média Ponderada

A fórmula anterior para calcular a média aritmética supõe que cada observação tenha a mesma importância (mesmo peso). Isso nem sempre ocorre. Consideremos, por exemplo, a média final dos alunos de Estatística.

Provas = 70%

Listas de Exercícios = 15% Testes em Sala = 15%

Qual a média de um aluno que obteve: 65 pontos nas provas, 40 pontos nas listas de exercícios e 35 pontos nos testes em sala (todos os pontos em relação a 100).

65 (70) 40 (15) 35 (15)

(

)

56, 75

70 15 15

Média Ponderada MP

=

⋅

+ ⋅

=

+ +

Fórmula Genérica:

∑

⋅

=

n

i

n

i

p

x

p

MP

1

1 )

(

)

(

)

(

(7)

b) Mediana

Uma outra medida do meio de um conjunto de números é a mediana. Sua característica principal é dividir um conjunto ordenado de dados em dois grupos iguais; a metade terá valores inferiores à mediana, a outra metade terá valores superiores à mediana. Para calcular a mediana, é necessário primeiro ordenar os valores (encontrar o rol) de forma crescente. Em seguida, conta-se até a metade dos valores para achar a mediana.

Exemplo: a mediana do conjunto 3, 5, 7 é 5;

Em geral, a mediana ocupa a posição (n + 1)/2. Logo, para três números, a posição é (3 + 1)/2 = 2, ou seja, a segunda posição.

Quando o número de itens do conjunto for par, a mediana será a média dos valores centrais

Exemplo: a mediana do conjunto 11, 12, 14, 17 será 13.

O processo para determinar a mediana é o seguinte:

1) Ordenar os valores;

2) Verificar se há um número ímpar ou par de valores;

3) Para um número ímpar de valores, a mediana é o valor do meio. Para um número par de valores, a mediana é a média dos dois valores do meio.

Comparação entre média e mediana: A escolha da média, ou da mediana, como medida de

tendência central de um conjunto, depende de diversos fatores. A média é influenciada cada valor do conjunto, inclusive os extremos. Por outro lado, a mediana é relativamente insensível aos valores extremos. Exemplo: X = {1, 2, 3, 4, 5, 6, 7} Y = {1, 2, 3, 4, 5, 6, 35}

4 )

(

4 )

(

8

7

35

6

5

4

3

2

1

4

7

6

5

4

3

2

1 =

=

+

=

+

=

Y

mediana

X

mediana

y

x

c) Moda

A moda é o valor que ocorre com maior freqüência num conjunto. Por exemplo, dados os números 10, 10, 8, 6, 10, há três "10" e uma unidade dos outros números. O valor mais freqüente (a moda) é 10.

Comparada com a média e com a mediana, a moda é a menos útil das medidas para problemas estatísticos. A utilidade da moda se acentua quando um ou dois valores, ou um grupo de valores, ocorrem com muito maior freqüência que outros. Inversamente, quando todos ou quase todos os valores ocorrem aproximadamente com a mesma freqüência, a moda nada acrescenta em termos de descrição dos dados.

Exemplo:

A = {1; 25; 37; 49; 25; 33; 51; 27; 29; 13; 15; 18; 21; 39; 44; 23; 7; 6; 5; 8; 3; 9; 21; 22; 46; 16; 21}

(8)

Exercícios:

1) Calcular a média, a mediana e a moda dos conjuntos abaixo:

A = {1 ; 5 ; 8 ; 7 ; 3 ; 2 ; 1 ; 7 ; 4 ; 3 ; 3 ; 9 ; 6 ;11 ; 1 ; 2 ; 3 ; 4 ; 5 } Resposta: média = 4,47 Mediana = 4 Moda = 3

B = {7 ; 7 ; 3 ; 5 ; 8 ; 3 ; 5 ; 5 ; 9 ; 18 ; 21 ; 14 ; 15 ; 5 ; 7 ; 6} Resposta: média = 8,63 Mediana = 7 Moda = 5

C = {90 ; 87 ; 92 ; 81 ; 78 ; 85 ; 95 ; 80 ; 83 ; 86 ; 93}

Resposta: média = 86,36 Mediana = 86 Moda = não existe

2) No departamento de controle de qualidade de uma indústria foram inspecionados 30 televisores quanto ao número de defeitos e os dados obtidos foram:

{0 ; 3 ; 4 ; 2 ; 1 ; 3 ; 0 ; 2 ; 1 ; 3 ; 1 ; 1 ; 1 ; 2 ; 2 ; 0 ; 0 ; 3 ; 2 ; 1 ; 0 ; 1 ; 2 ; 1 ; 0}

Determine a média, a mediana e a moda do número de defeitos.

Resposta: média = 1,44 Mediana = 1 Moda = 1

3) Numa pequena empresa existem, atualmente, 8 funcionários que recebem os salários (por hora) relacionados na tabela abaixo.

Funcionários 1 2 3 4 5 6 7 8

Salário($) / h 4,45 5,17 4,64 4,26 5,37 4,57 4,88 6,10

a) Determine o salário (por hora) médio dos funcionários; Resposta: $ 4,93 b) Se as horas trabalhadas seguem o quadro abaixo, calcule:

i) os salários totais de cada trabalhador; ii) a média de horas trabalhada;

iii) quanto a empresa pagou, em média, a hora trabalhada.

Funcionário 1 2 3 4 5 6 7 8 Nº de horas trabalhadas 18 23 28 33 38 24 26 37 Resposta: i) 1- $80,10; 2- $118,91; 3- $129,92; 4- $140,58; 5- $204,06; 6- $109,68; 7- $126,88; 8- $225,70. ii) 28,375 horas ou 28 h 22 min 30s

iii) $5,00

4) A média pode ser zero? Pode ser negativa? Explique.

5) A mediana pode ser zero? Pode ser negativa? Explique.

(9)

2.1.2 - Medidas de Dispersão

Geralmente, são necessários dois tipos de medidas para descrever adequadamente um conjunto de dados. Além da informação quanto ao "meio" de um conjunto de números, é conveniente dispormos também de um método que nos permita exprimir a dispersão. As medidas de dispersão indicam se os valores estão relativamente próximos uns dos outros, ou separados.

As medidas de dispersão mais utilizadas são: o intervalo a variância e o desvio padrão. Todas elas, exceto o intervalo, têm na média o ponto de referência. Em cada caso, o valor zero indica ausência de dispersão. A dispersão aumenta na proporção que aumenta o valor da medida (intervalo, variância, etc.).

a) Intervalo

O intervalo de um grupo de números é, de modo geral, a medida mais simples de calcular e de entender. Focaliza o maior e o menor valor no conjunto (ou seja, os valores extremos). O intervalo pode ser expresso de duas maneiras:

1) A diferença entre o maior e o menor valor; 2) O maior e o menor valor no grupo.

Exemplo: Considerando os valores: 3, 7, 23. A diferença entre o valor maior e o menor é 23 - 3

= 20. Alternativamente, pode-se dizer que o intervalo de valores vai de 3 a 23. Este último método tende a ser mais informativo.

A vantagem de utilizar o intervalo como medida de dispersão reside no fato de o intervalo ser relativamente fácil de calcular, mesmo para um grande conjunto de números. Outro ponto é que o significado do intervalo é fácil de entender.

A maior limitação do intervalo é o fato de ele só levar em conta os dois valores extremos de um conjunto, nada informando quanto aos outros valores.

b) Variância

A variância de uma amostra é calculada com base nas diferenças entre cada elemento e a média de um conjunto de dados com duas características principais:

1) É feita a somatória dos desvios elevados ao quadrado;

2) Para a amostra divide-se o resultado do somatório por (n – 1) e para a população divide-se por n.

Pode-se calcular a variância amostral pela fórmula abaixo.

(

)

(

1

)

(

variância

amostral)

1

2

2 −

∑

−

=

n

x

s

n

i

x

(

)

al)

populacion

variância

(

1

2

2 n

x

n

i

∑

i

−

=

σ

Se um conjunto de números constitui uma população, ou se a finalidade de somar os dados é apenas descrevê-los, e não fazer inferências sobre uma população, então deve-se usar n em lugar de (n - 1) no denominador.

(10)

Exemplo: Calcule a variância da amostra: 5; 7; 11; 13; 17; 19.

( ) ( ) ( ) ( ) ( ) ( )

₃₀

1

6

7

5

1

5

7

2

2 ₌

−

+

−

+

−

+

−

=

x

s

A variância de uma amostra é a média dos quadrados dos desvios dos valores a contar da média, calculada usando-se (n - 1) em lugar de n.

Em resumo, os estágios do cálculo da variância são:

1) Calcular a média;

2) Subtrair a média de cada valor do conjunto; 3) Elevar ao quadrado cada desvio;

4) Somar os quadrados dos desvios;

5) Dividir a soma por (n - 1) se se tratar de dados amostrais, ou simplesmente por n para somar o conjunto ou se os dados representam todos os valores de uma população.

c) Desvio Padrão

O desvio padrão é simplesmente a raiz quadrada positiva da variância. Assim, se a variância é 81, o desvio padrão é 9; se a variância é 10, o desvio padrão é ~3,16. Para determinar o desvio padrão, calcula-se a variância e toma-se a raiz quadrada positiva do resultado. As fórmulas para o desvio padrão são:

(

)

(

1

)

(

desvio

padrão

amostral)

1

2 −

∑

−

=

n

x

s

n

i

x

(

)

al)

populacion

padrão

desvio

(

1

2 n

x

n

i

∑

i

−

=

σ

Exemplo: Calcule o desvio padrão da amostra: 20, 5, 10, 15, 25.

91 ,

7

5 ,

62

5 ,

62

4

250

1

5 )

10 (

)

0 (

)

5 (

)

10 (

5

15

5

75

5

25

15

10

5

20

2

2 =

=

−

+

−

+

−

+

=

+

=

x

s

x

O desvio padrão é uma das medidas mais comumente usadas para distribuições, e desempenha papel relevante em toda a estatística.

(11)

2.2 - Análise de grandes conjuntos de dados

Muitas vezes nos deparamos com um grande número de dados para serem trabalhados. Os principais métodos para organizar dados estatísticos compreendem o arranjo ou disposição dos itens em subconjuntos que apresentem características similares (p. ex., mesma idade, mesma finalidade, mesma escola, mesma cidade, etc.). Os dados agrupados podem ser resumidos graficamente ou em tabelas, bem como mediante o uso de medidas numéricas tais como média, intervalo, desvio padrão, etc. A designação para os dados dispostos em grupos ou categorias é a distribuição de freqüência.

2.2.1 - Distribuições de Freqüência

Uma distribuição de freqüência é um método de agrupamento de dados em classes, ou intervalos, de tal forma que se possa determinar o número, ou a porcentagem (isto é, a freqüência) de cada classe. Isso proporciona uma forma de visualizar um conjunto de números sem precisar levar em conta os números individuais. O número ou porcentagem numa classe chama-se freqüência de classe.

O processo de construção de uma distribuição de freqüência para determinado conjunto de dados depende do tipo de dados em estudo (isto é, contínuos ou discretos).

a) Distribuição de freqüência utilizando dados contínuos

As principais etapas de construção de uma distribuição de freqüência para dados amostrais são:

1) Estabelecer as classes ou intervalos de agrupamento dos dados; 2) Enquadrar os dados nas classes, mediante contagem;

3) Contar o número em cada classe;

4) Apresentar os resultados numa tabela ou num gráfico;

Exemplo: Um gerente de um restaurante relacionou o consumo de carne diário durante um mês.

Os dados estão listados no quadro abaixo. Elabore a distribuição de freqüências do consumo de carne no restaurante.

11,7 30,5 13,8 9,4 17,6 12,8 5,7 23,8 21,5 14,7 16,3 15,7 29,8 21,3 29,1 17,3 18,9 7,6 6,8 10,7 34,7 22,5 24,6 23,7 19,1 13,7 25,0 15,8 16,4 23,5

As etapas para a construção de uma distribuição de freqüência para dados contínuos são:

1) Determinar o intervalo dos dados;

2) Determinar o número k de classes (Em geral, tomar k entre 5 e 15 classes);

3) Calcular a amplitude de classe, ou seja, (intervalo)/k, fazendo o arredondamento conveniente. (Certificar-se de que k vezes a amplitude é maior do que o intervalo, pois, de outra forma, os valores extremos não serão incluídos);

4) Estabelecer limites de classe preliminares. Rever os limites, que devem tocar-se, mas não interceptar-se;

5) Relacionar os intervalos e fazer a contagem dos pontos por classe; 6) Construir uma tabela de freqüência ou um histograma de freqüência.

(12)

2)

k

=

n

=

30 =

5 ,

48 ⇒

6 classes

3) Amplitude de Classe =

4 ,

83

5

6

29 intervalo

⇒

=

k

4) Limite inferior = 5,7 portanto: limite inferior de classe = 5 Limite superior = 34,7 portanto: limite superior de classe = 35

1ª classe = 5 - 10; 2ª classe = 10 - 15; 3ª classe = 15 - 20; 4ª classe = 20 - 25; 5ª classe = 25 - 30; 6ª classe = 30 - 35.

Observação: Fixadas as classes, cada ponto será enquadrado numa classe, mediante contagem.

Por exemplo, o primeiro valor (11,7) se enquadra na segunda classe. O próximo passo será a contagem por classes. As freqüências podem ser exibidas seja numa tabela ou num gráfico, sendo que elas podem ser absolutas ou relativas. Uma tabela de freqüência se apresentaria, então, assim:

5)

Classe Freqüência Freqüência Relativa

5 → 10 4 4/30 = 0,13333 10 → 15 6 6/30 = 0,20000 15 → 20 8 8/30 = 0,26667 20 → 25 7 7/30 = 0,23333 25 → 30 3 3/30 = 0,10000 30 → 35 2 2/30 = 0,06667 ∑ 30 1

6) A mesma informação pode ser apresentada através de um histograma de freqüência, que dá as classes ao longo do eixo horizontal e as freqüências (absolutas ou relativas) ao longo do eixo vertical. As fronteiras das "barras" coincidem com os pontos extremos dos intervalos de classe.

0 2 4 6 8 10 1 2 3 4 5 6 classe fre qüê nc ia

(13)

0 0,05 0,1 0,15 0,2 0,25 0,3 1 2 3 4 5 6 classe fre qüê nc ia re la tiv a

Uma alternativa ao histograma, útil por vezes, é o polígono de freqüência, construído mediante a conexão dos pontos médios dos intervalos do histograma com linhas retas.

0 0,05 0,1 0,15 0,2 0,25 0,3 1 2 3 4 5 6 classe fre qüê nc ia re la tiv a

b) Distribuição de freqüência utilizando dados discretos

Na construção de uma distribuição de freqüência utilizando dados contínuos, perde-se certa quantidade de informação porque os valores individuais perdem sua identidade quando são agrupados em classes. Isto pode ou não ocorrer com dados discretos, dependendo da natureza dos dados e dos objetivos do analista. Consideremos os seguintes dados relativos ao número de reclamações diárias num grande restaurante, durante um período de 30 dias.

4 3 1 7 0 3 2 5 9 8 6 5 2 1 1 0 0 3 4 5 7 8 2 2 3 3 8 7 5 4

classe freqüência classe freqüência

0 3 0 a 1 6 1 3 2 a 3 9 2 4 4 a 5 7 3 5 6 a 7 4 4 3 8 a 9 4 5 4 6 1 7 3 8 3 9 1

A distribuição de freqüência sem perda dos valores originais pode ser feita, utilizando como classes os inteiros de 0 a 9. Não há perda pois, pela tabela percebe-se que os dados originais apresentam 0 (com freqüência igual a 3), 1 (com freqüência igual a 2) e assim sucessivamente. Consequentemente, poderíamos reconstituir os dados originais a partir desta tabela. Por outro lado, poderíamos usar como classes 0-1, 2-3, 4-5, 6-7, 8-9. O resultado é uma distribuição não muito diferente da distribuição de dados contínuos.

De modo geral, prefere-se uma distribuição de freqüência sem perda de informação quando:

(14)

1) Os dados são constituídos de valores inteiros; 2) Há menos de, digamos, 16 dados;

3) Há observações suficientes para originar uma distribuição significativa.

Por outro lado, uma distribuição de freqüência em que o agrupamento ocasiona perda de informação é útil quando:

1) Estão em jogo inteiros e não inteiros (ou não inteiros somente);

2) Só existem inteiros, porém em número demasiadamente elevado para permitir uma distribuição útil;

3) A perda de informação é de importância secundária (por exemplo, o arredondamento do peso de um caminhão para o quilo mais próximo, ou da renda anual para o real mais próximo).

0 1 2 3 4 5 6 0. 1. 2. 3. 4. 5. 6. 7. 8. 9.

classe (sem perda de informação)

fr e qüê nc ia 0 2 4 6 8 10 0 a 1 2 a 3 4 a 5 6 a 7 8 a 9

classe (com perda de informação)

fre

qüê

nc

ia

c) Distribuição de freqüência acumulada

Uma distribuição de freqüência acumulada tem por objetivo indicar o número ou porcentagem de itens menores do que, ou iguais a, determinado valor. No caso das reclamações dos clientes do restaurante relatadas anteriormente, pode-se determinar as distribuições acumuladas para o caso com e sem perda de informação. Com o auxílio da tabela que descreve as freqüências (absoluta ou relativa), obtém-se facilmente as distribuições acumuladas somando-se sucessivamente os dados das classomando-ses de freqüência.

classe freqüência freq. acumulada classe freqüência freq. acumulada

0 3 3 0 a 1 6 6 1 3 6 2 a 3 9 15 2 4 10 4 a 5 7 22 3 5 15 6 a 7 4 26 4 3 18 8 a 9 4 30 5 4 22 6 1 23 7 3 26 8 3 29 9 1 30

(15)

0 5 10 15 20 25 30 35 0. 1. 2. 3. 4. 5. 6. 7. 8. 9.

classe (sem perda de informação)

fre qüê nc ia a c u m u la da 0 5 10 15 20 25 30 35 0 a 1 2 a 3 4 a 5 6 a 7 8 a 9

classe (com perda de informação)

fre qüê nc ia a c u m u la da

2.3 - Análise de dados agrupados

Na análise de dados agrupados utilizam-se as mesmas medidas que em pequenos conjuntos de dados, ou seja, a média, a mediana e a moda como medidas de tendência central, e o desvio padrão, a variância e o intervalo como medidas de dispersão.

a) Média em uma distribuição de freqüência

No cálculo da média de uma distribuição de freqüência pode ser utilizada uma expressão similar ao cálculo da média ponderada. Os pesos são substituídos pelas freqüências das classes, e a expressão pode ser definida como:

classe

iésima"

"

da

freqüência

a

é

que

em

1 i

n

i

_f

n

x

f

x

∑

⋅

=

Se não há perda de informação na distribuição de freqüência, a fórmula dará o mesmo resultado do cálculo com os dados originais; se o agrupamento causa perda de informação, os xi

são substituídos pelos pontos médios das respectivas classes, e a média resultante é uma aproximação. A utilização de pontos médios das classes trata os pontos médios como médias de classes, o que nem sempre é o caso. Todavia, se não for possível dispor dados originais, não há outra alternativa razoável.

Exemplo: Sem perda de informação. Determinar a média dos seguintes dados:

i xi fi xi⋅fi 1 0 1 0 2 2 3 6 3 4 6 24 4 6 4 24 5 8 2 16 ∑ 16 70

(16)

375 ,

4

16

70

16

5

1 =

=

∑

⋅

=

i

=

i

x

f

x

Exemplo: Com perda de informação. Determinar a média dos seguintes dados: i xi(ponto médio da classe) fi xi⋅fi

0 a 6 3 2 6

6 a 12 9 5 45 Note que os pontos médios das classes 12 a 18 15 4 60 são calculados tomando-se a média do

18 a 24 21 7 147 intervalo de cada classe.

24 a 30 27 6 162 ∑ 24 420

5 ,

17

24

420

16

5

1 =

=

∑

⋅

=

i

=

i

x

f

x

b) Mediana em uma distribuição de freqüência

Aqui também o processo e os resultados diferem, dependendo da forma de relacionar os dados originais. Se existe o conhecimento dos dados originais, o processo será o seguinte:

1) Identificar o intervalo que contém a mediana; 2) Determinar a posição da mediana nesse intervalo; 3) Ordenar os valores daquela classe;

4) Identificar a mediana.

Exemplo:

classe freqüência freqüência acumulada

2 a 4 3 3

4 a 6 12 15

6 a 8 16 31

8 a 10 14 45 mediana é o 3º valor da classe (8 a 10)

10 a 12 22 67 ∑ 67

ª

34

2

1

67

2 )

1 (

+

₌

+

₌

=

n

mediana

da

posição

Sem os dados originais assume-se que os valores na classe que contém a mediana são equiespaçados. Como há 14 valores na classe (8 a 10) e necessita-se do 3º valor, o cálculo será feito utilizando a expressão abaixo (lembrando que foi feita a suposição de equiespaçamento entre os valores da classe).

43 ,

8

14

2

3

8 

≅











⋅

+

=

Mediana

(17)













₋

⋅

+

=

_freq._acum._até_a_classe_anterior_à_classe_mediana

mediana classe mediana classe da inf.

f

2 n

f

i

L

Mediana

i = intervalo da classe mediana;

n = a soma total das freqüências absolutas.

c) Moda de uma distribuição de freqüência

A moda de uma distribuição de freqüência indica qual porção da distribuição tem a maior freqüência de ocorrências. Em geral é bastante simples identificar a moda, uma vez que os dados sejam dispostos numa distribuição de freqüência. Quando há perda de informação, a moda se refere a uma "classe modal", e não a um valor único.

d) Intervalo de uma distribuição de freqüência

Quando há o conhecimento dos dados originais, o intervalo é simplesmente a diferença entre o maior e o menor valor, ou os próprios valores. Sem os dados originais, o intervalo deve ser encarado como a diferença entre o limite inferior da primeira classe e o limite superior da última classe, ou os pontos extremos da distribuição.

e) Variância e desvio padrão em uma distribuição de freqüência

A variância de dados agrupados se determina pela expressão:

(

)

(

1

)

1

2

2 −

∑

⋅

−

=

n

x

f

s

n

i

x

Como anteriormente, utiliza-se (n - 1) se a variância é considerada como uma estimativa da variância da população, e n se os dados constituem por si uma população. O desvio padrão é a raiz quadrada positiva da variância. Para uma distribuição sem perda de informação, os valores serão exatos; se houver perda de informação, os xi's serão os pontos médios, e os resultados

serão apenas aproximados.

(

)

(

1

)

1

2 −

∑

⋅

−

=

n

x

f

s

n

i

x

Exemplo:

i xi(ponto médio da classe) fi fi⋅xi (xi - 17,5)2 fi⋅(xi - 17,5)2

0 a 6 3 2 6 210,25 420,5 6 a 12 9 5 45 72,25 361,25 12 a 18 15 4 60 6,25 25 18 a 24 21 7 147 12,25 85,75 24 a 30 27 6 162 90,25 541,5 ∑ 24 420 1434

(18)

5 ,

17

24

420

5 1

=

∑

⋅

=

n

x

f

x

i i i

348 ,

62

1

24 1434

2

₌

−

=

x

s

896 ,

7

35 ,

62 =

=

x

s

2.4 - Medidas Separatrizes

As medidas separatrizes são números reais que dividem a seqüência ordenada de dados (rol) em partes que contêm a mesma quantidade de elementos. Por exemplo, a mediana que divide a seqüência ordenada em dois grupos, cada um contendo 50% dos valores da seqüência, é uma medida separatriz. Além da mediana, outras medidas separatrizes são: quartis, quintis, decis e percentis.

Quartis (Q): divide uma seqüência ordenada em quatro partes iguais, sendo que cada uma ficará

com 25% de seus elementos. Os elementos que separam este grupo são chamados de quartis. Assim, o primeiro quartil, indicado por Q1, separa a seqüência ordenada, deixando 25% de seus

valores à esquerda e 75% à direita. O segundo quartil, indicado por Q2, separa a seqüência

ordenada, deixando 50% de seus valores à esquerda e 50% à direita. Note que Q2 é a mediana da

série. O terceiro quartil, indicado por Q3, separa a seqüência ordenada, deixando 75% de seus

valores à esquerda e 25% à direita.

Quintis (K): Divide a seqüência ordenada em cinco partes iguais, cada uma ficará com 20% de

seus elementos. Os elementos que separam este grupo são chamados de quintis. Assim, o primeiro quintil, indicado por K1, separa a seqüência ordenada, deixando à sua esquerda 20% de

seus elementos e à sua direita 80% de seus valores. De modo análogo são definidos os outros quintis.

Decis (D): Divide a seqüência ordenada em dez partes, cada uma ficará com 10% de seus

valores. Os elementos que separam estes valores são chamados de decis. Assim o primeiro decil, D1, separa a seqüência ordenada, deixando à sua esquerda 10% dos valores e à sua direita 90%.

Percentis (P): Divide a seqüência ordenada em 100 partes iguais, cada uma ficará com 1% dos

elementos. Os elementos que separam estes grupos são chamados de centis ou percentis. Assim, o primeiro percentil, indicado por P1, separa a seqüência ordenada deixando 1% de seus valores à

(19)

Observação: Deve-se notar que o Q4, K5, D10 e P100 são elementos que deixam à sua esquerda

100% dos valores da seqüência ordenada e correspondem diretamente ao último valor da seqüência. Além disso, observando que os quartis, quintis e os decis são múltiplos dos percentis, então basta estabelecer a fórmula de cálculo de percentis, pois todas as outras medidas podem ser identificadas como percentis. Desta forma:

Q1 = P25 K1 = P20 D1 = P10 D6 = P60

Q2 = P50 K2 = P40 D2 = P20 D7 = P70

Q3 = P75 K3 = P60 D3 = P30 D8 = P80

Q4 = P100 K4 = P80 D4 = P40 D9 = P90

K5 = P100 D5 = P50 D10 = P100

2.4.1 - Cálculo das Medidas Separatrizes para Dados Brutos ou Rol

Se os dados forem brutos, primeiramente deve-se fazer a ordenação formando um rol. Em seguida, identifica-se a medida que se quer obter com o percentil correspondente, Pi. Calcula-se

i% de n, ou seja:

100 rol

no

i

percentil

do

Posição

=

i

⋅

n

Se o valor encontrado utilizando a expressão acima for um número inteiro, então Pi será

um dos elementos da seqüência ordenada. Caso contrário, Pi é um elemento intermediário entre

os elementos que ocupam as posições aproximadas, sendo a média destes valores. Por exemplo, se o número calculado for 7,40; Pi será a média entre o sétimo e oitavo elemento da seqüência.

Exemplos: Calcule Q1 da seqüência: X = {2; 3; 3; 4; 4; 4; 5; 5; 5; 5; 6; 6; 7; 8; 9; 9}

4

100

400

100

16

25

100 .

1

25

1 =

=

⇒

=

⋅

=

⋅

=

Q

elemento

Q

P

n

i

de

Pos

P

Q

o

Calcule o K3 da seqüência: Y = {2; 3; 4; 5; 5; 6; 6; 7; 7; 9; 9; 9}

5 ,

6

2

7

6

8

7

2 ,

7

100

720

100

12

60 .

3

60

3 =

+

=

⇒

=

⋅

=

K

elementos

e

do

média

K

i

de

Pos

P

K

o

2.4.2 - Cálculo das medidas separatrizes para variáveis discretas

Neste caso, segue-se o mesmo procedimento adotado para o cálculo das medidas separatrizes para dados brutos. Normalmente, esta seqüência já vem ordenada. Para

(20)

identificar-se a medida que identificar-se quer obter com o percentil correspondente, Pi., Calcula-se i% de n, ou seja:

100 rol

no

i

percentil

do

Posição

=

i

⋅

n

Em seguida, utiliza-se a freqüência acumulada da seqüência para identificar o elemento que ocupa esta posição.

Exemplo: Calcule o D4 para a série abaixo:

xi fi facum. i 1 3 3 3 8 11 7 7 18 8 6 24 12 2 26 ∑ 26

3

2

3

3 :

que

se

tem

f

Observando

11

10

40 ,

10

100

26

40 .

4 acum 4 40 4

=

+

=

−

=

⇒

=

⋅

=

D

elementos

e

entre

D

i

de

Pos

P

D

o o

2.4.3 - Cálculo das medidas separatrizes para variável contínua

Se os dados estão apresentados na forma de uma variável contínua, eles já estão naturalmente ordenados e o número de elementos da série é n. Obtém-se uma fórmula geral para o cálculo dos percentis através da generalização da fórmula para o cálculo da mediana:

.

i

classe

à

inferior

nte

imediatame

classe

a

até

acumulada

freqüência

f

;

i

classe

da

freqüência

f

classe;

de

Amplitude

A

;

i

classe

da

inferior

limite

L

f

100 n

i

f

A

L

P

* * i acum. i c . inf i acum. i c . inf i

→













⋅

₋

⋅

+

=

i i

Exemplo: Calcule Q3 na série abaixo:

Classe Intervalo de Classe fi facum. i

1 0 - 10 16 16 2 10 - 20 18 34 3 20 - 30 24 58 4 30 - 40 35 93 5 40 - 50 12 105 ∑ 105

(21)

93 ,

35

58

100

105

75

35

10

30 f

100

105

75 f

A

L

3 75 3 3 classe a até acum. 75 c 75 . inf 75 3

=

⇒













⋅

₋

⋅

+

=













⋅

₋

⋅

+

=

Q

P

Q

P

Q

2.5 - Medidas de Assimetria

Há distribuições contínuas e discretas. As distribuições contínuas são curvas suaves. As distribuições discretas representam-se por barras ou retângulos.

Uma informação útil é se a distribuição é simétrica (a metade esquerda é a imagem reflexa da metade direita) ou se é "assimétrica" (desviada) numa direção.

A forma de uma distribuição de freqüência influi nos valores da média, da mediana e da moda. Diz-se que urna distribuição é simétrica quando a média é igual à mediana que, por sua vez, é igual à moda. Se isto de fato ocorrer, a curva de freqüência tem a característica gráfica apresentada na Figura 1.

Figura 1 - Representação esquemática de uma distribuição de freqüência simétrica

Se uma distribuição não e simétrica, será classificada como assimétrica, podendo ser positiva ou negativa (Figura 2).

Figura 2 - Representação esquemática de distribuições de freqüências assimétricas.

Pode-se calcular a assimetria de uma curva utilizando o Coeficiente de Pearson, dado por:

padrão.

desvio

o

é

s

moda;

a

é

Mo

média;

a

é

x

Pearson;

de

e

coeficient

o

é

A

:

que

em

s

Mo

-x

A

s s

=

(22)

A interpretação deste coeficiente pode ser resumida em:

1) Se As < -1 então a distribuição é assimétrica negativa forte; 2) Se - 1 < As < 0 então a distribuição é assimétrica negativa fraca; 3) Se As = 0 então a distribuição é simétrica;

4) Se 0 < As <1 então a distribuição é assimétrica positiva fraca; 5) Se As > 1 então a distribuição é assimétrica positiva forte.

Exemplo: Classifique quanto a assimetria, a distribuição abaixo, segundo o coeficiente de

Pearson. xi fi xi⋅ fi (xi - média)2⋅ fi 1 2 2 7,0688 2 10 20 7,7440 3 6 18 0,0864 4 4 16 5,0176 5 2 10 8,9888 6 1 6 9,7344 ∑ 25 72 38,64

(

)

fraca

positiva

a

assimétric

s

Mo

x

A

n

f

x

s

f

x

s

i

⇒

=

−

=

−

=

−

=

−

∑

−

⋅

=

∑

⋅

=

6935

,

0 2689

,

1

2

88 ,

2 2689

,

1

25

64 ,

38

1

88 ,

2

25

72

2

2.6 - Curtose

Curtose representa o grau de achatamento de uma distribuição. Com relação ao grau de achatamento, existem três casos:

1°) Caso: Os dados são fortemente concentrados em torno da sua moda, o que faria a curva de

(23)

2º) Caso: Os dados são razoavelmente concentrados em torno da moda, o que faria a curva de

freqüência ser razoavelmente achatada. Este tipo de curva é classificado como Mesocúrtica.

3º) Caso: Os dados estão fracamente concentrados em torno da moda, o que faria a curva de

freqüência ser bastante achatada em sua área central. Este tipo de curva é classificado como platicúrtica.

Para classificar urna distribuição quanto a sua curtose, pode-se utilizar o coeficiente de curtose dado por:

(

)

3

1

4 4

−

∑

−

⋅

=

s

n

f

x

K

i i

A interpretação do coeficiente de curtose possibilita a seguinte análise: 1) Se K = 0 ⇒ a distribuição é mesocúrtica;

2) Se K > 0 ⇒ a distribuição é leptocúrtica; 3) Se K < 0 ⇒ a distribuição é platicúrtica.

Exemplo: Classifique quanto à curtose, a distribuição abaixo:

Classe Int. de Classe fi mi mi⋅ fi (xi - média)2⋅ fi (xi - média)4⋅ fi

1 3 - 5 1 4 4 16,81 282,5761 2 5 - 7 2 6 12 8,82 38,8962 3 7 - 9 13 8 104 0,13 0,0013 4 9 - 11 3 10 30 10,83 39,0963 5 11 - 13 1 12 12 15,21 231,3441 ∑ 20 40 162 51,80 591,9140

(

)

(

)

(

)

(

)

curva

leptocúrti

ca

s

n

f

x

k

fraca

positiva

a

assimétric

s

Mo

x

A

n

f

x

m

s

n

f

x

m

s

f

m

x

i i s i i i i i i i

⇒

>

=

−

∑

−

⋅

=

⇒

=

−

=

−

=

−

=

−

∑

−

⋅

=

−

∑

−

⋅

=

∑

⋅

=

0

19 ,

1 6512

,

1

19 9140

,

591

3

1

060 ,

0 6512

,

1

8

10 ,

8 6512

,

1

20

8 ,

51

1 7263

,

2

19

8 ,

51

1

10 ,

8

20

162

4 4 4 2 2 2