01 ApostEst 1.03.1

(1)

INTRODUÇÃO

Ao falarmos em Estatística, é inevitável que nos lembremos de números ou de seqüên-cias numéricas, porcentagens, tabelas, gráficos, etc. Em resumo: de resultados de observações de fenômenos, os mais diversos possíveis, de alguma forma quantificados. Por exemplo:

 A economia brasileira deverá crescer 4,5% ao ano

 O saldo de empregos formais atingiu 246.695 pontos em Novembro de 2009  O tempo médio de vida útil de lâmpadas PL é de 6500 horas

A Estatística não se resume a valores numéricos ou tabelas, as quais, muitas vezes, para que sejam compreendidas, é necessário uma interpretação de quem as informa. Grosso modo, podemos defini-la como a ciência de se coletar, analisar, apresentar dados e, ainda, interpretá-los, para que seja possível, através de sua utilização tomar decisões com a menor margem de erro.

Cabe aqui uma advertência. Este texto não é, nem pretende ser um tratado, ainda que in-completo, em Estatística. É um texto que de maneira simples e resumida introduz o leitor à utili-zação dessa disciplina em problemas simples.

ESTATÍSTICA

Podemos dizer que a Estatística está dividida em:

 Estatística Descritiva/Dedutiva: cujo objetivo é coletar os dados, ou melhor, as informações relevantes de uma população, ou parte dela, em estudo de acordo com um objetivo, organizá-los e descrevê-los.

 Estatística Inferencial/Indutiva: cujo objetivo é analisar e interpretar os dados coletados através de uma amostra, estendendo essa interpretação a toda a popu-lação. Em outras palavras, concluir algo sobre um todo através de uma parte desse todo.

CONCEITOS BÁSICOS

POPULAÇÃO: é o conjunto de objetos no qual há interesse de estudo – o conjunto total de parafusos produzidos por uma fábrica, todos os alunos de uma escola, todas as bactérias numa cultura, o total de entradas de notas fiscais de uma empresa, etc.

(2)

2

AMOSTRA: é um subconjunto não vazio de uma população, isto é, um pequeno grupo tirado da população, suas características devem ser as mesmas da população. Resumida-mente, a amostra pode ser:

 ALEATÓRIA ou CASUAL: equivale ao sorteio de um número de representantes da população.

 SISTEMÁTICA: ordenamos a população por alguma característica, procedemos a um único sorteio para obtermos o primeiro elemento, os demais são selecionados adicio-nando um valor constante a este. Por exemplo: num prédio de 20 apartamentos, preten-demos obter uma amostra de 5 elementos; sorteamos o primeiro, suponhamos que seja o apartamento 3; dividindo 20 por 5 obtemos 4, este valor será acrescentado seqüencial-mente ao primeiro, formando a seqüência: 3, (3 + 4), (7 + 4), (11 + 4), (15 + 4), isto é, 3, 7, 11, 15, 19.

 ESTRATIFICADA: devemos obter elementos de todos os estratos da população. Por exemplo: numa cidade há diversas regiões que se diferenciam por alguma característica (comercial, residencial, econômica, cultural, etc). Definida a característica de interesse, obtém-se uma amostra de cada região distinta, para depois compor uma amostra única estratificada representante dessa cidade.

 de CONVENIÊNCIA: é composta pelos elementos que se tem à mão. Por exemplo: pesquisa-se a vizinhança como amostra de uma cidade. Deve-se notar que há um viés muito forte nesta pesquisa e conclusão.

VARIÁVEL ALEATÓRIA: é uma quantidade numérica que exprime os resultados de um expe-rimento aleatório, isto é, os valores dos dados. Deve estar associa-do à característica de interesse da pesquisa.

Desde que os valores que as variáveis assumem são os valores dos dados estatísticos, então, como estes, as variáveis classificam-se em quantitativas: discretas e contínuas, e, qualitativas: nominal e ordinal.

DADOS ESTATÍSTICOS: são as informações resultantes das observações das características de interesse para a pesquisa obtidas da população ou de sua amostra. Os dados podem ser de natureza quantitativa ou qualitativa.

1. QUANTITATIVA: quando exprimem propriedades passíveis de medições; podem ser:

 DISCRETOS: são valores associados ao conjunto de números in-teiros, tais como número de pessoas, de bactérias, de parafusos, índice de glicemia, etc.

 CONTÍNUOS: são valores associados ao conjunto dos números reais, tais como peso, massa, tempo de durabilidade, comprimen-to, altura, etc.

2. QUALITATIVA: quando exprimem propriedades que não são passíveis de medições; podem ser:

 NOMINAL: possuem características mutuamente exclusivas dis-tinguindo-os em categorias, tais como cor dos olhos, sexo, tipo sanguíneo, nacionalidade, escolaridade, etc.

(3)

3

 ORDINAL: são dispostos em seqüência classificatória, tais como ordem de chegada, preferência em relação a cores, etc.

PARÂMETRO: é um valor numérico utilizado para descrever uma característica de uma popu- lação, em geral são indicados por uma letra do alfabeto grego: , , , , . . . ESTIMADOR: é um valor numérico utilizado para descrever uma característica de uma amostra

em geral são indicados por uma letra do alfabeto latino: A, B, C, . . .

DADOS BRUTOS: geralmente os dados estatísticos não são organizados à medida que são coletados, essa massa de dados que ainda não foram organizados são os dados brutos. Por exemplo, a tabela abaixo:

4,3 4,5 3,9 4,7 4,9 4,4 3,1 5,4 5,1 3,7 4,3 4,2 4,8 4,4 3,3 3,8 4,3 5,6 5,1 5,7 4,8 5,9 4,6 4,7 5,0 3,7

ROL: é a organização dos dados brutos numéricos em ordem crescente ou decrescente de grandeza. Utilizando a tabela acima:

3,1 3,3 3,7 3,7 3,8 3,9 4,2 4,3 4,3 4,3 4,4 4,4 4,5 4,6 4,7 4,7 4,8 4,8 4,9 5,0 5,1 5,1 5,4 5,6 5,7 5,9

AMPLITUDE AMOSTRAL / TOTAL: é a diferença entre o maior e o menor valor do rol, neste caso 5,9 – 3,1 = 2,8.

FASES DE UM TRABALHO ESTATÍSTICO

No início deste texto foi mencionado que a Estatística é utilizada para minimizar, ao máximo, a margem de erro no processo de tomada de decisão. Isto só é possível através de aná-lise e interpretação dos dados coletados.

Para que o trabalho estatístico alcance seus objetivos é necessário que seja muito bem dimensionado. Desta forma, para desenvolver um bom trabalho estatístico podemos dividi-lo em cinco fases:

 Planejamento  Coleta de dados

 Crítica e Apuração dos dados  Exposição dos resultados  Interpretação dos resultados

PLANEJAMENTO: planejamento e determinação das características – proposta da pesquisa e objetivos, configuração da população, delineamento da amostra, método da coleta de dados, o questionário.

COLETA DE DADOS: os dois métodos utilizados são: Censo e Amostragem

 CENSO: é um levantamento completo de todas as variáveis de interesse com todos os elementos da população em estudo. Tem como vantagens o conheci-mento completo das características da população e a possibilidade de se obter dados verdadeiros.

(4)

4

Algumas de suas desvantagens são: custo elevado, demora na obtenção de re-sultados, nem sempre é viável.

 AMOSTRAGEM: é o levantamento das características de interesse de uma população utilizando uma fração da mesma, isto é, um sub-conjunto da população que contenha suas características: a amostra. Tem como vantagens: o custo da pesquisa, o qual é muito menor do que o custo para toda a população, o tempo de coleta e análise. Sua principal desvantagem é trabalhar com uma margem de certeza infe-rior a 100%.

CRÍTICA E APURAÇÃO DOS DADOS: a crítica é a revisão da massa de dados obtida. Con-siste na procura de falhas, imperfeições, erros grosseiros, respostas falsas, etc. Após a crítica, os dados são apurados, isto é, averiguados.

(5)

5

EXPOSIÇÃO DOS RESULTADOS: consiste na exposição dos dados através de tabelas ou gráficos apropriados. Para dados qualitativos temos os gráficos de colunas, barras, linha, pictogramas, setor (pizza ou torta). Para dados quantitativos temos histo-grama, polígono de freqüência, ogiva, diagrama de dis-persão.

A exibição através de gráficos, além de ser a melhor ma-neira de observarmos a tendência e evolução da massa de dados obtidos, é, também, a melhor maneira para compa-rar os dados de diferentes categorias. Contudo, deve-se salientar que alterando-se a escala do eixo numérico po-de-se ter uma falsa impressão ao observar o gráfico. Por exemplo, supondo-se que as vendas de dois produtos di-ferentes, A e B, estejam representadas pelo gráfico abai-xo:

Alterando-se as escalas dos eixos, sem alterar seus valo-res, temos a representação:

A observação rápida de ambos os gráficos induz a falsa impressão de que o crescimento das vendas do produto B é muito superior ao do produto A, o que não é verdadeiro.

3 2 1 2000 2010 A B ano vendas 3 2 1 2000 2010 A B ano vendas

(6)

6

Neste ponto é interessante observarmos um exemplo da representação de dados qualita-tivos através de gráficos.

A tabela abaixo representa as áreas aproximadas, em km², dos continentes: América, Ásia, África, Europa e Oceania.

Continente Área em km2 Oceania 9.000.000 Europa 10.530.000 África 30.330.000 América 42.190.000 Ásia 44.936.000

A seguir temos alguns gráficos que representam essa tabela:

Observemos a facilidade para interpretar, ou perceber, a variação entre os valores obti-dos nas cinco categorias nos dois gráficos acima. Por simples inspeção é fácil concluir qual a menor e a maior categoria.

9 10 30 42 44 0 10 20 30 40 50

Oceania Europa África América Ásia Área (106 _km2₎ Continentes

Gráfico de Colunas

9 10 30 42 44 0 10 20 30 40 50 Oceania Europa África América Ásia Área (106_km2₎ Continentes

Gráfico de Barras

(7)

7

Este tipo de gráfico é utilizado quando a intenção é observar as frações que compõem o todo, isto é, as relações entre cada categoria e o todo. Se o interesse é evidenciar uma alteração na composição do todo, desenha-se dois, ou mais, gráficos de setores próximos.

INTERPRETAÇÃO DOS RESULTADOS: de posse dos gráficos e tabelas, há condições de interpretar o fenômeno em estudo, a fim de emitir as conclusões e/ou previsões. Há casos em que serão necessários, ainda, efetuar algumas operações matemáticas para que se possa alcançar conclusões mais confiáveis sobre a pesquisa.

0 10 20 30 40 50

Oceania Europa África América Ásia Área (106 km2) Continentes

Gráfico de Áreas

Oceania 7% Europa 7% África 22% América 31% Ásia 33%

Gráfico de Setor

(8)

8 DISTRIBUIÇÃO DE FREQÜÊNCIA

A Distribuição de Freqüência é a apresentação resumida de dados quantitativos na for-ma de tabelas. O nome vem do fato que o interesse concentra-se no número de ocorrências, ou freqüência, dos valores obtidos durante a coleta de dados.

A descrição é dependente da natureza da variável aleatória, isto é, se os valores dos da-dos são discretos ou contínuos, e também da quantidade de dada-dos observada-dos. Desta forma, há dois tipos de variáveis:

 VARIÁVEIS DISCRETAS: assumem poucos valores dentro de um conjunto numérico finito ou infinito enumerável. Geralmente são associadas ao conjunto dos números inteiros, muito embora podemos ter um conjunto de dados racionais assumindo valores finitos, limitados a uma ou duas casas após a vírgula.

Alguns exemplos: números de clientes que entram numa loja em deter-minado dia, número de parafusos defeituosos produzidos num certo pe-ríodo, número de crianças que nascem diariamente em alguma cidade, horário de saída/chegada de ônibus em uma estação rodoviária (geral-mente no formato hh:mm), etc.

 VARIÁVEIS CONTÍNUAS: assumem qualquer valor dentro de um intervalo numérico finito ou infinito não enumerável. Pode-se associá-las com o conjunto dos números reais.

Alguns exemplos: peso, massa, distância, renda, etc.

DISTRIBUIÇÃO DE FREQÜÊNCIA PARA VARIÁVEIS DISCRETAS

Para variáveis discretas há dois casos possíveis: a série possui poucos valores ou muitos valores.

I. SÉRIE POSSUINDO POUCOS VALORES: neste caso, na 1ª coluna da tabela de dis-tribuição de freqüência é inserido cada um dos valores distintos que a seqüência pode assumir; na 2ª coluna sua freqüência absoluta, isto é, o número de ocorrências daquele valor, e outros objetos de análise que serão descritos.

Ex: Os dados abaixo são os números de filhos por família de uma quadra de um bairro de alguma cidade.

3 2 2 4 1 5 0 2 1 1 3 2

0 1 4 1 2 3 0 2 0 4 5 1

Da qual obtemos o Rol:

0 0 0 0 1 1 1 1 1 1 2 2

(9)

9

Construímos a tabela:

número de

filhos xi fi fri Fi Fri

0 4 16,7 % 4 16,7 % 1 6 25,0 % 10 41,6 % 2 6 25,0 % 16 66,7 % 3 3 12,5 % 19 79,2 % 4 3 12,5 % 22 91,7 % 5 2 8,3 % 24 100,0 % n =  fi = 24 na qual:

xi : variável aleatória; no caso de variáveis qualitativas, cada linha desta coluna representa uma categoria.

fi : freqüência absoluta  número de ocorrências da variável aleatória

fri : freqüência relativa  é a razão entre fi e o número total de elementos pesqui-sados (n); há autores que denominam esta razão,

n f_i

, de freqüência relativa, e a esta razão, quando multiplicada por 100, de freqüência percentual ou relativa percentual.

Fi : freqüência acumulada  é o somatório de fi desde o primeiro valor até o valor atual.

Fri: freqüência relativa acumulada  é a razão entre Fi e o total de elementos pesquisados (n); vale aqui observação semelhante a de fri.

I.1 REPRESENTAÇÃO GRÁFICA: neste caso podemos dispor do sistema cartesiano, no qual no eixo das abscissas estarão os valores da variável e no eixo das ordenadas as freqüências correspondentes. A relação pode ser por barras ou linhas verticais, também denominadas hastes.

Obs: Note que neste exemplo a variável aleatória, número de filhos, assume poucos valores, há somente seis valores possíveis, ( 0 , 1 , 2 , 3 , 4 , 5 ), por isso pode ser representada individualmente. Não seria o caso se esta seqüência pudesse assumir um número muito grande de valores ou fosse classificada como contínua, que é o próximo caso.

1 2 3 4 5 1 2 3 4 5 6

f

i num. filhos

(10)

10

II. SÉRIE DE VALORES CONTÍNUOS (OU SÉRIE COM MUITOS VALORES DIS-CRETOS): neste caso os valores são divididos em grupos, isto é, são agrupados, para que seja possível sua exibição em uma tabela de fácil leitura e compreensão. Cada gru-po formado é denominado classe ou intervalo de classe. Deve-se observar que ao agru-parmos os dados em classes há perda de informações.

Há diversos critérios para definir o número de intervalos de classe, k, isto é, quantos grupos podem ser formados com os n dados obtidos, tais como o critério da raiz quadrada do número de dados, k n , ou a fórmula de Sturges k = 1 + 3,3.log n, contudo, o que de fato prevalece é o bom senso e a prática de quem confecciona a dis-tribuição.

Neste texto introdutório utilizaremos o critério da raiz quadrada do número de dados observados. Se n é o número de observações, e k é o número de intervalos de classe, temos k n. Ainda, para facilitar a visualização, a análise e a interpretação,

convenciona-se que k deve ser um número inteiro entre 5 e 20, ou de maneira

mate-mática, 5  k  20.

Ex.: Coletando-se uma amostra das massas, em quilogramas, de animais de pequeno porte, obteve-se os valores em kg, aproximados para uma casa decimal:

4,3 4,5 3,9 4,7 4,9 4,4 3,1 5,4 5,1 3,7 4,3 4,2 4,8 4,4 3,3 3,8 4,3 5,6 5,1 5,7 4,8 5,9 4,6 4,7 5,0 3,7 3,4 4,8 5,4 5,3 cujo Rol é: 3,1 3,3 3,4 3,7 3,7 3,8 3,9 4,2 4,3 4,3 4,3 4,4 4,4 4,5 4,6 4,7 4,7 4,8 4,8 4,8 4,9 5,0 5,1 5,1 5,3 5,4 5,4 5,6 5,7 5,9

Neste exemplo, como o número de amostras é 30, n = 30, ao utilizar o critério da raiz quadrada temos k 305,5, ou ainda, k  5. Escolhemos, en-tão, um inteiro próximo de 5 que seja mais conveniente; em geral as opções são de um inteiro menor que o valor da raiz quadrada ou um maior. Para este exem-plo, k = 4 está fora de cogitação pois está fora do intervalo apropriado já men-cionado (5  k  20); assim, devemos decidir entre 5 e 6.

Inicialmente, optemos por 5 intervalos de classe. Isto significa que divi-diremos o conjunto de valores obtido em 5 classes, isto é, em 5 grupos. A fim de obter a amplitude, ou largura, de cada intervalo, dividimos a amplitude a-mostral pelo valor de k escolhido.

A amplitude amostral é obtida através da diferença entre o maior valor e o menor valor dos dados coletados, no caso: 5,9 – 3,1 = 2,8. Desta forma, para obtermos a largura de cada intervalo, devemos dividir 2,8 por 5, cujo quociente é 0,56.

Isto significa que tomaremos o menor valor da amostra e adicionaremos 0,56 para obter o primeiro intervalo,isto é: 3,1 + 0,56 = 3,66. Portanto, o primei-ro intervalo conterá todos os valores entre 3,1 e 3,66. Estes extremos são deno-minados de limite inferior da classe, representado por  , e, limite superior da classe, representado por L, respectivamente.

(11)

11

A fim de evitar sobreposição dos valores em um intervalo, inserimos nesse intervalo todos os valores maiores ou iguais ao limite inferior da classe e que sejam estritamente menores que o limite superior da classe. Especifi-camente para a primeira classe: todos os valores iguais ou maiores que 3,1 e

menores que 3,66.

A segunda classe deverá conter todos os valores maiores ou iguais a 3,66 e menores que 4,22, e assim sucessivamente para as demais classes.

Conseqüentemente, temos as classes:

intervalos i de classes 1 3,10 ⊢ 3,66 2 3,66 ⊢ 4,22 3 4,22 ⊢ 4,78 4 4,78 ⊢ 5,34 5 5,34 ⊢ 5,90

Devemos notar dois problemas com essa distribuição.

Em primeiro lugar, os dados coletados possuem precisão de uma casa decimal após a vírgula, enquanto que os limites dos intervalos de classes possu-em duas casas decimais após a vírgula.

Em segundo lugar se observarmos atentamente a última classe, a quinta, vemos que deve conter todos os valores desde 5,34 até 5,9, exceto este. Se hou-ver restrições quanto a largura de cada classe, devemos, então, inserir a sexta classe, que varia de 5,9 a 6,46, somente para conter o maior valor dos dados: 5,9. Caso contrário, podemos optar em fazer a quinta classe, a última, conter o valor 5,9. Assim esta classe seria constituída por valores maiores ou iguais a 5,34.

Esta distribuição, é claro, embora aceitável, não é a melhor.

Para contornar este problema, em vez de utilizar 0,56 como amplitude, ou largura, do intervalo de classe, aproximamos este valor para 0,5 ou 0,6. Po-demos, então, escolher entre 5 intervalos cada qual de comprimento 0,6, ou, 6 intervalos de comprimento 0,5.

Notemos que isto acarreta uma alteração na amplitude total de 2,8 para 3,0. Assim, ao invés de fazer com que a amplitude amostral coincida com a am-plitude da distribuição, podemos fazer com que esta última varie de 3,0 a 6,0. Consequentemente, podemos optar por utilizar 5 classes cuja amplitude seja 0,6, ou ainda, 6 classes de amplitude igual 0,5.

(12)

12

Selecionado a segunda opção obtemos a distribuição de freqüência a-baixo:

Intervalo ponto médio

i de classe ou marca fi fri Fi Fri 1 3,0⊢3,5 3,25 3 10,0 % 3 10,0 % 2 3,5⊢4,0 3,75 4 13,3 % 7 23,3 % 3 4,0⊢4,5 4,25 6 20,0 % 13 43,3 % 4 4,5⊢5,0 4,75 8 26,7 % 21 70,0 % 5 5,0⊢5,5 5,25 6 20,0 % 27 90,0 % 6 5,5⊢6,0 5,75 3 10,0 % 30 100 %  = 30

TERMINOLOGIA

 LIMITES DO INTERVALO DE CLASSE: são os valores que limitam um intervalo, temos o limite inferior,  , que é o menor valor, e o limite superior, L, que é o maior va-lor. Por exemplo, no intervalo 3,5⊢4,0, os extremos são L = 4,0 e  = 3,5.

 AMPLITUDE (ou LARGURA) DO INTERVALO DE CLASSE: é a diferença entre o limite superior e o limite inferior. Muito embora seja muito conveniente, não é necessá-rio que a amplitude do intervalo de classe seja constante, como no exemplo acima, a amplitude pode variar, especialmente nos extremos da tabela para evitar intervalos de classe com freqüência inferior a 5% de n.

 PONTO MÉDIO (ou MARCA DE CLASSE): é o valor representativo de cada interva-lo. É calculado através da média aritmética de cada intervalo:

2  

L .

NOTA: Se os intervalos de classe possuem amplitudes distintas, o eixo vertical do histo-grama deverá indicar a densidade da freqüência relativa (DFR)

classe de ervalo do amplitude absoluta freqüência DFR int 

(13)

13 REPRESENTAÇÕES GRÁFICAS

1. HISTOGRAMAS  Uma das representações gráficas habitualmente utilizada é o Histograma. Seu gráfico é uma seqüência de retângulos, nos quais a base é a amplitude do intervalo de classe, e a altura é igual a sua freqüência.

2. POLÍGONO DE FREQUÊNCIA  A linha que une os pontos médios dos lados superiores dos retângulos do histograma, forma o Polígono de

Freqüência. Esta curva, o polígono, deve ser fechada em ambos

os extremos. 1 2 3 4 5 6 3,0 3,5 4,0 4,5 5,0 5,5 6,0 7 massa (kg)

f

i 3 3,0 4,0 4,5 5,0 5,5 6,0 8 massa (kg)

f

i 3,5 8

(14)

14

3. OGIVA  Esta curva, também chamada de gráfico de freqüência acumulada, é obtida utilizando-se os valores da freqüência acumulada, Fi, no eixo vertical e, de maneira similar a ambos os gráficos anteriores, os intervalos de classe no eixo horizontal. Confeccione este gráfico como exercício.

EXERCÍCIOS

1) Construa o Rol para a seqüência de dados brutos:

3, 15, 21, 5, 17, 12, 15, 5, 9, 16, 8, 19 2) Idem ao exercício anterior para os dados:

14,5; 10,6; 3,2; 8,7; 18,1; 11,8; 9,7; 8,3; 1,8; 5,6

3) Uma pesquisa sobre a idade em anos, de uma sala de uma aula de uma faculdade, reve-lou os seguintes valores:

18, 17, 18, 20, 21, 19, 20, 18, 17, 19, 18,19, 19, 20, 18, 19, 18, 19, 21, 18, 19, 18, 18, 20,18, 18, 19, 19, 21, 20, 17, 19, 19, 18, 18, 19, 20, 19,18, 18, 21, 18, 19, 19, 20, 19, 18, 19, 20, 18.

Construa a tabela de distribuição de freqüência e faça o respectivo histograma. ( ref. ) 4) Durante um final de semana coletou-se o número de horas de uso de computador

do-méstico por 20 pessoas, obtendo-se os valores:

2,8 7,8 5,5 4,6 4,8 10,5 5,7 3,6 4,8 5,9 10,5 5,5 2,1 3,6 4,8 6,6 6,1 3,3 2,1 7,3

Construa sua distribuição de freqüência e seu histograma.

5) Uma auditoria em uma grande empresa observou o valor de 50 notas fiscais emitidas durante o mês. Esta amostra apresentou os seguintes valores:

15.315,00 23.440,00 6.551,00 13.253,00 25.312,00 35.718,00 42.320,00 34.782,00 27.435,00 17.661,00 20.414,00 23.313,00 26.432,00 30.515,00 27.610,00 8.598,00 12.417,00 22.300,00 25.400,00 21.200,00 16.820,00 38.000,00 40.300,00 15.800,00 18.300,00 21.780,00 3.414,00 32.000,00 18.700,00 19.600,00 22.540,00 22.010,00 30.000,00 21.380,00 24.780,00 29.000,00 30.400,00 12.319,00 36.728,00 36.483,00 27.312,00 35.318,00 18.620,00 38.661,00 40.681,00 19.302,00 23.300,00 21.350,00 28.412,00 21.313,00

Construa sua distribuição de freqüência, histograma e polígono de freqüência. (ref. ) 6) Ao estudar o tempo de espera, em minutos, para os clientes que chegavam em certo

in-tervalo de tempo a um posto de atendimento médico, obteve-se a seguinte sequência de valores em um dia:

0 3 2 5 0 4 4 12 5 6 15

12 8 6 3 9 6 7 5 3 2 4

(15)

15

7) Um supermercado trabalha com 5 marcas de sucos de frutas. Em um dia qualquer, obte-ve-se a seguinte tabela de vendas desses sucos:

SUCO QUANT. VENDIDA

Zuko 12 Nathur 19 Tri-suco 9 Sósuco 17 Mr Suco 6 Suco Caro 2

Termine a distribuição de freqüência, faça os gráficos de colunas e de setor.

8) As notas de uma prova de Matemática variam de 0,0 a 10,0. Os quarenta alunos aprova-dos nessa disciplina obtiveram as notas abaixo:

7,4 7,3 8,5 5,9 5,3 8,9 7,4 6,8 7,5 8,8 6,5 5,8 8,8 7,3 8,7 6,1 8,8 7,6 6,2 7,2 6,1 6,1 8,2 9,0 9,2 8,9 6,3 8,8 7,2 8,1 7,6 9,7 6,7 7,8 9,5 7,6 8,0 6,9 7,7 8,8 Construa sua distribuição de freqüência e o histograma correspondente.

9) A tabela abaixo refere-se a distribuição dos salários dos funcionários de uma empresa. Complete sua distribuição de freqüência, faça o histograma correspondente, o polígono de freqüência e o gráfico de freqüências acumuladas.

SALÁRIO OCORRÊNCIAS 1500 ⊢2500 8 2500 ⊢3500 10 3500 ⊢4500 15 4500 ⊢5500 14 5500 ⊢6500 9 6500 ⊢7500 5 7500 ⊢8500 4

10) Em um experimento, 3 moedas foram lançadas 100 vezes e, após cada lançamento, foi anotado o número de caras. O experimento foi resumido na tabela abaixo:

NÚM. DE CARAS NÚM. DE LANCES

0 12

1 32

2 39

3 17

a) Construa as colunas de freqüência relativa e percentual. b) Faça o gráfico que representa a freqüência acumulada. c) Faça o gráfico de barras e de setor.

(16)

16

PEQUENO ESTUDO ACERCA DE DISTRIBUIÇÃO DE FREQÜÊNCIA

Anteriormente foi mencionado que há diversos critérios com os quais podemos compor o número de intervalos de classes, mas, de fato, prevalecendo o bom senso e a prática de quem elabora a distribuição. Isto significa que devemos escolher o número de intervalos de classe e, consequentemente, a sua amplitude, de maneira a realçar as características do estudo e, assim, buscando diminuir as influências de variações acidentais. Neste pequeno estudo que segue pro-curou-se realçar o bom senso na escolha dos intervalos de classe.

Seja a seguinte tabela de dados numéricos ordenados por valores crescentes ( Rol ): 46 50 53 65 65 67 68 69 70 71 73 75 77 77 78 80 81 82 83 83 84 85 85 88 88 89 89 90 90 91 92 92 93 93 94 94 95 96 98 98 100 101 102 104 105 106 106 107 109 110 110 116 117 117 118 121 121 122 122 123 123 123 123 124 125 128 128 133 134 134 135 137 138 143 147 149 152 153 153 154

Assumindo-se que a amplitude da distribuição varia de 40 a 160, e, agrupando-se os dados em intervalos de classe com amplitude igual a 5, tem-se:

int. classe fi int. classe fi int. classe fi 40 ⊢ 45 0 80 ⊢ 85 6 120 ⊢ 125 9 45 ⊢ 50 1 85 ⊢ 90 6 125 ⊢ 130 3 50 ⊢ 55 2 90 ⊢ 95 9 130 ⊢ 135 3 55 ⊢ 60 0 95 ⊢ 100 4 135 ⊢ 140 3 60 ⊢ 65 0 100 ⊢ 105 4 140 ⊢ 145 1 65 ⊢ 70 5 105 ⊢ 110 5 145 ⊢ 150 2 70 ⊢ 75 3 110 ⊢ 115 2 150 ⊢ 155 4 75 ⊢ 80 4 115 ⊢ 120 4 155 ⊢ 160 0

Observemos que para esta escolha há algumas classes vazias e vários máximos.

70

90

110

130

150

1

40

2

9

5

fi

(17)

17

Agrupando-se os dados em intervalos com amplitude igual a 10, temos o gráfico abaixo, ainda com alguns máximos:

int. classe fi 40 ⊢ 50 1 50 ⊢ 60 2 60 ⊢ 70 5 70 ⊢ 80 7 80 ⊢ 90 12 90 ⊢ 100 13 100 ⊢ 110 9 110 ⊢ 120 6 120 ⊢ 130 12 130 ⊢ 140 6 140 ⊢ 150 3 150 ⊢ 160 4

Agrupando-se os dados em intervalos de amplitude igual a 20, temos a distribuição abaixo, não tão ruim quanto as anteriores; já passível de algumas observações e conclusões:

int. classe fi 40 ⊢ 60 3 60 ⊢ 80 12 80 ⊢ 100 25 100 ⊢ 120 15 120 ⊢ 140 18 140 ⊢ 160 7

Agrupando-se os dados em intervalos de amplitude igual a 20, com variação nos extremos te-mos uma distribuição melhor, na qual a média concentra-se no seu centro:

int. classe fi 40 ⊢ 50 1 50 ⊢ 70 7 70 ⊢ 90 19 90 ⊢ 110 22 110 ⊢ 130 18 130 ⊢ 150 9 150 ⊢ 160 4

1

70

90

110

130

150

5

13

40

80

120

160

1

25

40

80

120

160 0,1

2,2

fi fi DFR

(18)

18

MEDIDAS DE TENDÊNCIA CENTRAL

As medidas de tendência central indicam um valor em torno do qual ocorre a distribuição. Em outras palavras, é um valor que representa a distribuição de dados. As mais empregadas são: a média, a mediana e a moda.

Média Aritmética (x): é o valor em torno do qual os dados se distribuem e é obtido através do

quociente da soma dos valores dos dados pelo número deles. Dados não agrupados: Dados agrupados:

n x x n 1 i i



  i=1, 2, 3, ..., n



 



k 1 i i k 1 i i i

f

x

i=1, 2, 3, ..., k

n = total de valores k = número de classes

xi = valor da classe ou ponto médio do intervalo de classe

Obs:

1. É para dados quantitativos;

2. Pode sempre ser calculada e é única para um conjunto de dados;

3. O conceito de média é estatístico e este valor pode nem mesmo existir no conjunto de dados (não pense que todos são iguais a média);

4. A média sofre influência de (é sensível a) cada valor, principalmente de valor extremo (discrepante ou aberrante ou outlier); alterando-se um valor, altera-se a média.

Média Geométrica (x_g): é a raiz n-ésima do produto de todos os valores.

Média Geométrica Simples: Média Geométrica Ponderada:

n n 1 i i n n 3 2 1 g

x

...

x









n k 1 i i p i k 1 i k p k p k 2 p 2 1 p 1 g x x ... x x x



  _      Obs:

1. x_g x (quando todos os valores forem iguais, então x_g x); 2. se houver algum valor nulo (zero), a média geométrica será nula;

3. a média geométrica também é influenciada por valores extremos da distribuição; 4. é útil para representar valores em progressão geométrica, taxas e relações.

(19)

19

Média Harmônica (

x

_h): é o inverso da média aritmética dos inversos.

Média Harmônica Simples: Média Harmônica Ponderada:









n 1 i i n 2 1 h

x

1 n

x

1 ...

x

1 x

1 n

x



  

_





k 1 i i i k 1 i i k k 2 2 1 1 k 1 i i h

x

p

x

p

...

x

p

x

p

x

Obs:

1. x_h x_g (quando todos os valores forem iguais, então x_h x_g);

2. se houver algum valor nulo (zero), a média harmônica terá o cálculo inviabilizado; 3. a média harmônica também é influenciada por valores extremos da distribuição; 4. é útil para representar valores que tenham unidade de medida dada pelo inverso dos

valores originais

Mediana ( md ): é o valor que ocupa a posição central de um conjunto de dados ordenados; é também chamado de valor mediano.

Dados não agrupados:         2 1 n d X

m [ n ímpar (valor central) ]

ou

2

) 1 2 ( ) 2 ( 





n n d

x

m

_{[ n par (média dos valores centrais) ]}

Dados agrupados: torna-se necessário o cálculo da classe mediana

classe mediana: classe que contém a mediana; é a classe que contém a metade do núme-ro de elementos da série ( n/2 ), o que é fácil de se observar com o uso da freqüência a-cumulada d d d m m a m d

h

f

F

n

l

m









2

onde:

md: ordem da classe que contém a mediana lmd : limite inferior da classe mediana Lmd : limite superior da classe mediana

Fa : freq. acumulada da classe anterior a classe mediana fmd: freq. absoluta da classe mediana

hmd: amplitude da classe mediana

(20)

20

Moda (mo): é o valor de maior freqüência no conjunto de dados; também dito norma, valor

dominante ou valor típico.

Dados não agrupados: valor(es) de maior freqüência. Dados agrupados: é necessário o uso da classe modal

classe modal: é a classe que contém os valores que tiveram maior número de ocorrên-cias  Fórmula de Czuber : mo p a mo a mo mo

h

f

l

mo











)

(

2

onde:

lmo : limite inferior da classe modal fmo : freqüência absoluta da classe modal

fa : freqüência absoluta da classe anterior à modal fp : freqüência absoluta da classe posterior à modal hmo : amplitude da classe modal

 Fórmula de King : mo p a p mo

h

f

l

mo







( os termos possuem os mesmos significados )  Fórmula Empírica de Pearson :

Utilizada para distribuições unimodais, assimétricas, com grande quan-tidade de observações e pequena a escala de unidades que divide a dis-tribuição

x

m

mo



3

_d



2

Graficamente: f Obs:

1. É para dados quantitativos e qualitativos;

2. Pode não haver moda, haver uma moda ou mais de uma moda;

3. Quando há duas ou mais modas, em geral, os dados são de duas ou mais popu-lações.

(21)

21

Posição Relativa entre Média, Mediana e Moda

f

MEDIDAS DE DISPERSÃO DE DADOS

As medidas de dispersão, ou de variabilidade, indicam qual é a dispersão (espalhamento) dos dados em torno do valor central, utilizadas para avaliar a representatividade da média.

Amplitude (At): é a diferença entre o maior valor e o menor valor do conjunto de dados.

Dados não agrupados: Dados agrupados: At = x(n) – x(1) At = Lk – l1 Obs:

1. quanto maior o valor de At, maior é a dispersão/variabilidade dos valores; 2. tem pouca sensibilidade estatística – é possível alterar a série sem afetá-lo,

ou afetando muito pouco.

Desvio Médio (DM): é a média dos desvios dos valores à média dos dados. Dados não agrupados: Dados agrupados:

n

x

DM

n 1 i i











 





k 1 i i i k 1 i i

f

.

x

DM

i = 1, 2, 3, ..., n i = 1, 2, 3, ..., k

n = total de valores k = número de classes

xi = marca da classe/ponto médio Obs: O DM é sensível para alterar-se com a mudança de qualquer elemento da série

curva simétrica

mo

x

~

x



curva assimétrica negativa

mo

x

~

x



curva assimétrica positiva

x

~

(22)

22

Variância ( s2 ou 2 ): é o somatório dos quadrados das diferenças dos valores em relação à

média dos mesmos, dividida pelo número de elementos (população) ou pelo número de elemen-tos menos um.

Dados não agrupados: Dados agrupados:

n

x

n i i









1 2 2

)

(













_k i k i i i

f

x

1 1 2 2

)

(



1 )

(

1 2 2









n

x

s

n i i











 k i k i i i

f

x

s

1 1 2 2

1 )

(

Obs:

1. usar xi como ponto médio do Intervalo de Classe na fórmula acima

2. se na fórmula de 2 há N no denominador, então é dito ser Variância

Popula-cional, e x pode ser substituido por



;

3. se na fórmula de 2 há n-1 no denominador, então é dito ser Variância Amostral e é indicado por s2 ; (n-1) é dito ser o grau de liberdade da amostra;

4. a variância é uma medida de variabilidade que utiliza todos os dados;

5. a variância é um número expresso em unidade quadrada em relação a variável em análise, o que dificulta sua compreensão;

Desvio-padrão ( s ou  ): é a raiz quadrada positiva da variância.

  2 s s2

Obs:

1. são válidas todas as fórmulas da variância, obtendo-se a raiz quadrada dela;

2. o desvio-padrão é expresso na mesma unidade da variável em estudo, facilitando a compreensão do fenômeno; porém, ele não informa se esta variação é grande ou pe-quena;

3. relação empírica entre desvio-padrão e amplitude:

3 6 t t A s A  

(23)

23

Coeficiente de variação (CV): é uma medida de variação relativa dada pelo quociente entre o

desvio-padrão (  ou s ) e a média aritmética (x), é um número admensional e pode ser expres-so em porcentagem. x CV  ou  100 x CV  x s CV  ou  100 x s CV Obs:

1. o CV caracteriza a dispersão dos dados em relação ao seu valor médio (compara a dispersão absoluta com a ordem de grandeza dos valores da variável);

2. é admensional, permitindo comparações de dispersões de variáveis cujas unidades de medida sejam iguais ou diferentes;

3. pode-se afirmar que a seqüência que possui maior CV tem seus valores mais disper-sos ( espalhados ) que aquela com menor CV.

EXERCÍCIOS 1) Calcule a variância, o desvio-padrão e o CV, das seqüências:

a) 4, 3, 7, 11, 14, 17 b) 1, 5, 12, 20, 15, 11 c) 15, 16, 17, 20, 21

2) Calcule a variância, o desvio-padrão e o CV da distribuição abaixo: alturas fi 150⊢160 2 160⊢170 15 170⊢180 18 180⊢190 18 190⊢200 16 200⊢210 1