• Nenhum resultado encontrado

03_Introdução a Estatística

N/A
N/A
Protected

Academic year: 2021

Share "03_Introdução a Estatística"

Copied!
26
0
0

Texto

(1)

ESTATÍSTICA Capítulo

1

1. INTRODUÇÃO À ESTATÍSTICA

Os estudos sobre Estatística tiveram início em meados de 1700 objetivando os jogos de sorte (ou de azar). O verbete “Statistics” apareceu na Enciclopédia Britânica1 em 1797. A Estatística estende-se a agricultura, biologia, comércio (destacando-se as empresas de seguro e saúde), economia, educação e outros numerosos campos do conhecimento humano.

A Estatística se preocupa com os métodos para coleta de dados, organização, apresentação e análise desses dados, bem como na obtenção de conclusões e na tomada de decisões baseadas em tais análises.

Num sentido mais restrito, o termo Estatística designa os próprios dados ou medidas deles derivadas como, por exemplo, médias, desvios em relação a estas médias, etc. Assim, fala-se em estatística de empregos, de acidentes, etc.

1.1. ESTATÍSTICA DESCRITIVA E ESTATÍSTICA INDUTIVA

Para efeito de estudos considera-se a Estatística Descritiva e a Estatística Indutiva.

A Estatística Descritiva tem como objetivo observar os fenômenos de uma mesma natureza (variação do índice de Bolsa de Valores, tráfego de carros em determinado local, investimento público em saúde, etc), coletar dados numéricos referentes aos fenômenos, organizar e classificar estes dados, apresentando-os por meio de tabelas e gráficos. Utiliza-se, para analisar estes fenômenos, algumas medidas como: média, mediana, moda, desvio-padrão, etc, que discutiremos oportunamente.

A Estatística Indutiva estuda a generalização de fenômenos a partir de resultados particulares, isto é, faz-se inferência de propriedades para o todo com base na parte. Por exemplo, se, em uma amostra de alunos de uma escola tem-se 5% de fumantes, imagina-se que 5% dos alunos desta escola são fumantes. O processo de generalização, que é característico deste método, está associado a uma margem de erro, gerando um grau de

incerteza e para minimizá-lo a teoria de Probabilidades é fundamental. Nos preocuparemos agora apenas com a Estatística Descritiva.

1.1.1. ETAPAS DA ESTATÍSTICA DESCRITIVA: a) Definição do Problema

Consiste em precisar o objeto de estudo. Por exemplo, estudar as importações de um determinado produto, estudar a demanda de combustível, etc.

b) Planejamento

É importante, para o sucesso da pesquisa, que se esteja atento ao considerar: - Cronograma das atividades de coleta e organização de dados. Esta informação,

1 A primeira edição da Encyclopaedia Britannica ocorreu em 1768 – Scotland.

(2)

além de indicar a duração da pesquisa, mostra o momento conveniente de cada coleta. - Custos envolvidos com pessoal, técnicos, aluguéis de equipamentos, etc. - Informações disponíveis. Elas reduzem o tempo e os custos da pesquisa. - Critério para a coleta de dados. A execução de qualquer tarefa deve seguir o plano estabelecido para garantir a confiabilidade na interpretação dos dados coletados. c) Coleta de dados

A coleta de dados pode ser realizada de forma direta, fazendo medidas, entrevistando pessoas, etc, ou de forma indireta, utilizando-se de dados já coletados por outras entidades. É importante que a metodologia da coleta esteja rigorosamente de acordo com o planejado para não prejudicar a interpretação dos dados coletados.

A coleta de dados pode ser feita de modo contínuo, periódico ou ocasional, conforme o problema que se está estudando. Por exemplo, ao se estudar as cheias dos rios, a coleta deverá ser periódica, coincidindo com a época de chuvas, e, de modo contínuo, as variações de valor das ações nas Bolsas de Valores, ou, ocasionalmente, para estudo de alguma doença epidêmica.

d) Crítica e apuração dos dados

Se, por alguma razão, surgir um dado que é discrepante dos demais que foram colhidos, este dado deverá ser eliminado da amostra, pois não está na normalidade e poderá provocar distorções na interpretação dos resultados.

e) Organização e apresentação dos dados

Os dados, na forma como são colhidos (dados brutos), podem nada dizer a respeito do problema estudado, eles precisam ser organizados. Os dados organizados constituem uma série estatística (rol) e sua apresentação pode ser feita através de tabelas ou gráficos.

Uma tabela ou um gráfico deve conter:

- Cabeçalho, que deve indicar o que se estuda, onde e quando a coleta de dados foi realizada.

- Corpo, que indica o registro dos dados coletados.

- Rodapé, se necessário, para informações adicionais ou observações que não puderam ser descritas no cabeçalho ou corpo.

GASTOS COM PUBLICIDADE Cabeçalho Governo do Estado de Alegria do Sul - 2000 Em milhões de reais Janeiro 5,3 Fevereiro 600 (*) Março 6,4 Corpo Abril 4,3 Maio 7,1 Junho 3,7

Rodapé (*) em mil reais – Jornal de Alegria do Sul

f) Análise e interpretação dos dados

Através de tabelas, gráficos e de medidas como médias, desvios, coeficientes de variação, etc, pode-se entender o que está ocorrendo e tomar decisões.

(3)

1.2. POPULAÇÃO E AMOSTRA

População é um conjunto de indivíduos (animais ou objetos) que apresentam pelo menos uma característica comum que interessa analisar.

Amostra é uma parte ou uma parcela da população escolhida de maneira que seja representativa da população. Uma amostra é representativa se exprime as informações contidas na população de onde foi retirada. Em alguns casos a amostra é retirada por sorteio entre os elementos da população, em outros é necessário estratificar a população e obter a amostra através de percentuais dos estratos (classes sociais, etnias, salários,...) estabelecidos2, etc. Uma amostra com seus dados organizados é uma série estatística. 1.3. TABELAS E GRÁFICOS

As tabelas servem para apresentar as informações obtidas e devem ser organizadas de forma simples. Por exemplo,

CADASTRO GERAL DE ALUNOS

Escola Z - 2001

Nome série sexo idade José Silva 1 M 11 Maria Santa 2 F 12 Carlos Prego 1 M 15 Sônia Alegre 4 F 13 Etc Entendemos cada linha da tabela como uma unidade de informação e cada coluna como uma variável. Portanto, uma variável é uma característica de uma unidade que pode variar entre as unidades da população. No exemplo, observamos que a variável sexo é qualitativa e a variável idade é quantitativa. Um exercício interessante é o de verificar a existência de relações entre as variáveis. Poderíamos, na tabela acima, desejar saber se a idade dos alunos é compatível com a série que cursam. Problemas como estes serão estudados mais adiante (ver 4.6 (ex.2)). 1.3.1. SÉRIE DE DISTRIBUIÇÃO DE FREQÜÊNCIAS É a organização dos elementos distintos de uma variável, tendo em vista as respectivas freqüências absolutas (número das observações de cada elemento da amostra ou população). Por exemplo, UNI-Z - Cor dos olhos dos alunos do curso de Sanscrito - 4 ano - 2000 cor alunos (freq. absoluta) azul 2 verde 5 castanho 10 preto 3

2 Ex: Se a população possui 40% de homens e 60% de mulheres, então uma amostras qualquer dessa

(4)

Podemos construir uma tabela com duas colunas, de modo que a primeira apresente as diferentes notas obtidas numa avaliação escolar e a segunda indique as freqüências absolutas correspondentes às notas da primeira coluna.

Se a turma de alunos for numerosa e as notas, de zero a dez, com precisão de décimos é provável que a tabela tenha muitas linhas e, assim, prejudicar a rápida interpretação dos dados. Neste caso, é conveniente agrupá-los em classes (intervalos de notas) ou categorias com freqüências absolutas dadas pelo número de elementos nelas constantes e, deste modo, perceber onde ocorre maior ou menor concentração de dados. UNI-Z – Notas de Estatística

Prova final - Turma z - 4ano - 1999

Classes de notas alunos (freq. abs.)

0,0 2,5 12

2,5 5,0 32

5,0 7,5 25

7,5 10 18

O extremo superior não é contado, exceto na última classe.

Tabelas como estas são utilizadas quando os dados coletados podem ser colocados em correspondência com números reais de um intervalo. Por exemplo, considere a variável altura dos alunos da escola; é evidente que existe um intervalo para estas medidas e que, teoricamente, não possui dois alunos com a mesma altura (para verificar o fato podem-se assumir subdivisões da unidade de medida). Variável como esta (altura, área,...) será chamada de variável contínua. Variável que assume apenas valores isolados como: cor dos olhos dos alunos, salário base recebido por cargos em uma empresa, tarifas de ônibus praticadas em uma cidade, etc... será chamada de variável discreta.

1.3.2. GRÁFICOS

Os gráficos, tal como as tabelas, devem apresentar as séries estatísticas de forma simples, com clareza e veracidade.

Principais tipos de gráficos utilizados:

- por pontos - cartogramas - por linhas - pictogramas - por superfície em: - estereogramas colunas - polar

barras

histograma – colunas justapostas setores

Cada fenômeno estudado pode ficar melhor entendido com a escolha conveniente de um destes gráficos. Assim, o primeiro passo na apresentação dos dados sob a forma de gráfico é a escolha do tipo mais adequado às finalidades do trabalho.

(5)

A elaboração dos gráficos visa facilitar a compreensão do fenômeno como um todo para uma posterior tomada de decisão. Por isso, os gráficos não devem ser elaborados de forma muito rebuscada para não comprometer o entendimento dos fatos estudados. 1.3.2.1. EXEMPLOS DE GRÁFICOS :

UNI-Z Cor dos olhos dos alunos de GASTOS COM PUBLICIDADE Sânscrito - 4 ano - 2000 Governo de Alegria do Sul - 2000 ( em milhões de reais) alunos R$ 60 10 . 40 5 . . 20 2 . az vd ca pr cor j f m a m mês Gráfico por pontos Gráfico por linha UNI-Z – Notas de Estatística UNI-Z - Curso de Administração Prova final - Turma z - 1999 Matriculas com um dia de atraso alunos alunos 30 60 20 40 10 20 notas 0 2,5 5,0 7,5 10 1997 1998 1999 2000 ano Gráfico por superfície – histograma Gráfico por superfície - coluna UNI-Z – Curso de Administração AREA DAS REGIÕES BRASILEIRAS Matriculas com um dia de atraso (em km2) ano 2000 1999 1998 1997 . Norte 3.581.180 Sul 577.723 matriculas Sudeste 924.935 Nordeste 1.546.672 Centro-Oeste 1.879.455 0 20 40 60

Gráfico por superfície - barras Gráfico por superfície - setores

Norte Sul Sudeste Nordeste Centro-Oeste

(6)

LOJAS K – Entrega de produtos ANALFABETISMO – Alegria do Sul 1999 (em milhões)

1960 1980 2000

Gráfico - Estereograma Pictograma

OURO - Principais jazidas Gráfico - Cartograma

TEMPERATURA MÉDIA - Ano : 2000 - Cidade : Alegria jan fev mar abr mai jun 27C 23C 19C 12C 10C 7C fev mar abr 30ºC --- 0 20 40 60 80 100

1° Trim. 2° Trim. 3° Trim. 4° Trim.

Leste Oeste Norte

10

7

4

mai jan jun Alegria Sorriso Gráfico - Polar

(7)

EXERCÍCIOS DE APLICAÇÃO 1.1

1) Complete a tabela abaixo indicando as medidas dos ângulos e porcentagens correspondentes e construa ao lado um gráfico de setores.

PRODUÇÃO AGRICOLA - Estado de Alegria do Sul 2000 PRODUTOS QUANTIDADE (tonelada) ÂNGULOS (graus) % Café 300 000 Açúcar 240 000 Milho 120 000 Feijão 60 000 TOTAL 720 000 360o 100

2) Utilizando-se da tabela acima, faça gráficos por pontos, linhas, superfície em colunas, pictograma e estereograma.

3) Considerando as informações da tabela abaixo, construa um gráfico em colunas.

PARTE DO LEÃO - Imposto devido como percentagem de renda líquida em reais

CATEGORIA RENDA LÍQUIDA 2000 1999

A 200 4,9 3,0 B 400 13,5 10,8 C 600 19,7 16,3 D 800 24,4 21,0 E 1 000 28,2 24,7 F 1 500 34,2 31,3 G Valor maior 38,2 35,5

(8)

1.4. DISTRIBUIÇÕES DE FREQÜÊNCIAS

Obtida uma amostra, é comum organizar os seus dados, segundo uma variável, em forma de tabela de modo que apresente as freqüências absolutas para cada valor desta variável. Exemplo:

UNI-Z – Idade dos alunos de Estatística - Curso: Administração - 6Período i Variável xi (idade – anos completos) Freqüência Absoluta fi (no de alunos c/mesma idade)

1 x1 = 18 8

2 x2 = 19 10

3 x3 = 20 15

4 x4 = 21 4

Total de alunos n = 37 A Freqüência Absoluta , fi , do valor de uma variável qualitativa ou quantitativa xi é o número de elementos da amostra com a mesma medida xi , i =1,2,3,.. . No exemplo, f1=8, f2=10, etc. Note que a soma das freqüências absolutas dos valores de uma variável é igual ao número de elementos da amostra ou população estudada. Notação: i

i f

= n Vamos entender como Freqüência Relativa, fri

,

da variável xi , i=1,2,3,...,n, a razão entre a freqüência absoluta fi e a soma das n das freqüências absolutas; fri = n fi , i = 1,2,3, ... , observe que  fri = 1. Estabelecida a ordem crescente para os valores numéricos de uma variável da amostra, podemos obter a Freqüência Acumulada, fac , até xi , i =1,2,3,...,n, simplesmente adicionando-se a freqüência absoluta fi com as freqüências absolutas dos valores que a precedem. UNI-Z - Idade dos alunos de Estatística – Curso: Administração - 6 Período Variável xi Freq Absol fi Freq Relat fri Freq. Acum. fac x1 = 18 8 8/37 8

x2 = 19 10 10/37 18

x3 = 20 15 15/37 33

x4 = 21 4 4/37 37

(9)

1.5. MEDIDAS DE POSIÇÃO OU DE TENDÊNCIA CENTRAL

Apresentaremos como medidas de tendência central de uma série estatística o percentil, o quartil, a mediana, a moda e a média.

1.5.1. PERCENTIL

Em algumas situações deseja-se saber a posição que um determinado valor ocupa numa série estatística. Por exemplo, saber a ordem e o percentual que representa a nota de um aluno em relação a maior nota obtida na prova e, assim, conhecer o aproveitamento deste aluno comparada ao desempenho do melhor aluno. Outro exemplo é saber o percentual que representa a rentabilidade de seu investimento tendo em vista a melhor rentabilidade.

Para resolver problemas como estes, deve-se organizar os dados quantitativos obtidos na amostra em ordem crescente (incluindo os repetidos, se houverem) e estabelecer com eles uma correspondência com os números naturais de 1 até n, onde o número 1 atribuído ao menor valor e n ao maior valor (n é o número total de observações da série). Associando-se o 0% à posição da observação de ordem 1 e 100% à posição da observação de ordem n. Por regra de três simples (ver abaixo) obtemos o posição p em por centos da observação de ordem . (%) 100% p 0% 1  n (ordem na série) Portanto, % 0 % 100 1   n = % 0 1   p  ( I )

A fórmula acima permite obter a ordem  de uma observação conhecendo-se o seu percentil p e vice-versa.

p 1 .100% 1 n         ou 100 p (n 1). 1    .

Chamaremos de percentis os 99 valores da série que a separam em 100 partes iguais, correspondendo aos valores: P1 a 1%, P2 a 2%, ... , P99 a 100% da série.

EXEMPLO:

Notas dos alunos de Estatística em uma determinada avaliação 3,5 4,5 5,0 7,5 7,0 4,0 8,5 6,0 5,5 9,0 6,5

(10)

a) Qual é a nota (percentil) correspondente a 40,0% de aproveitamento na avaliação? b) Qual é a nota (percentil) de aproveitamento que corresponde a p = 25%?

Solução

Colocando em ordem crescente estas notas da avaliação, temos:

Notas 3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,5 9,0 Ordem 1 2 3 4 5 6 7 8 9 10 11 a) Qual é a nota com aproveitamento de 40,0%?

Utilizando (I), % 0 % 100 1 11   = 1 40 0%   , daí,  = 5.

Utilizando a tabela acima, vemos que a nota é 5,5.

b) Qual é a nota de aproveitamento que corresponde a p = 25%? Utilizando (I), % 0 % 100 1 11   = 1 25% 0%   , daí,  = 3,5

Não temos na tabela acima a posição 3,5, então aproxima-se para o valor inteiro superior, portanto para  = 4.

Temos, neste caso, a nota P25 = 5,0.

A nota P25 é o maior que os valores das primeiras 25% observações da série de notas e, também, menor que os 75% das observações restantes.

EXERCÍCIOS : Considerando o exemplo dado, calcular:

1) o percentual de todas as observações da série de 11 termos. (aplicar (I) ) 2) a ordem dos percentuais 25% , 50% e 75% da série (aplicar (I) ) 3) os percentis relativos aos percentuais 25% , 50% e 75%. ( ver pela tabela) 1.5.2. QUARTIL

Sejam as observações de uma série ordenadas de forma crescente e divididas em quatro partes correspondentes a 25%, 50% e 75%. Assim, obtemos três quartis deno-minados como: primeiro quartil por Q1, segundo quartil por Q2 e terceiro quartil por Q3.

Vemos que o

- primeiro quartil: Q1 divide a série de dados em duas partes: 25% e 75% - segundo quartil: Q2 divide a série de dados em duas partes: 50% e 50% - terceiro quartil: Q3 divide a série de dados em duas partes: 75% e 25% Você pode obter os quartis no exemplo das notas dos alunos acima?

R: P25 = Q1 = 4 P50 = Q2 = P75 = Q3 =

(11)

1.5.3. MEDIANA

Numa série ordenada de forma crescente (ou decrescente), o valor da observação que está equidistante dos extremos é a Mediana e será denotada por Md .

EXEMPLO

Notas dos alunos de Estatística em uma determinada avaliação

3,5 4,0 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,5 9,0 A mediana é a nota 6,0, pois tem cinco notas menores que 6,0 e outras cinco notas maiores que 6,0. Md = P50 = 6,0.

Suponha que n seja o número de observações da série. Se n é ímpar, o termo médio é a mediana e, para localizá-la, basta considerar a ordem (n+1) / 2. Se n é par, teremos dois termos médios que serão localizados pelas ordens (n/2) e (n/2)+1, a mediana é definida como a média aritmética destes termos.

EXEMPLO

Série 3 5 7 9 11 13 15 17 Ordem 1 2 3 4 5 6 7 8 Temos n = 8, portanto, número par.

As ordens: 2 n = 2 8 = 4 corresponde ao termo 9 e ( 2 n ) + 1 = ( 2 8 ) +1 = 5 corresponde ao termo 11. Então, Md = 2 11 9

= 10 (embora não esteja na série )

Nota: O valor da mediana é igual ao percentil (P50) correspondente ao percentual 50%. A mediana marca o valor central de uma série e não se altera pela substituição de qualquer observação distante dela, isto é, se, por exemplo, o valor extremo da série for dobrado a mediana continua a mesma.

1.5.4. MODA

A Moda, Mo , é o valor da série com maior freqüência absoluta.

Se a nota 7,0 de uma prova de Estatística teve, por exemplo, a maior freqüência, então a moda do conjunto de notas obtidas pelos alunos é 7,0, ou seja, Mo = 7,0.

Caso a série possua uma só moda ela é chamada de unimodal. Pode ocorrer séries com mais de uma moda, por exemplo, em uma prova duas notas diferentes com a mesma frequência absoluta aparecerem em maior número que as demais.

Nota: A moda é o valor que mais ocorre ou o que possui maior frequência. A moda não se altera pela substituição de outra observação de menor frequência.

(12)

1.5.5. Média

A média de uma série é a média aritmética dos elementos dessa série.

Seja a série X de observações: x1 , x2 , x3 , x4 , ... xn referentes a uma população ou a uma amostra. Definimos:

- Média da população, X , média aritmética de todos os elementos da série.

X = n x x x x x1234 ... n ou X = n x n i i

1 -Média da amostra , x , média aritmética dos elementos da amostra da população.

x = n x x x x1 2  3... n ou x = n x n i i

1 Nota:

O fato de utilizarmos n para indicar o número de elementos da população e da amostra não é conflitante uma vez que estaremos em contextos diferentes.

Havendo valores repetidos na série dada, podemos escrever a fórmula de x ou X

como 1 k i i i x f n

, onde f é a freqüência absoluta de cada valor i x da variável e k o i número de classes de valores iguais observadas, isto é,

1 k i i n f  

.

Tratando-se apenas da série X, costuma-se escrever  em substituição a X . EXEMPLO:

Os números abaixo se referem às notas obtidas em uma prova de Estatística. 3,5 4,5 5,0 7,5 7,0 4,0 8,5 6,0 5,5 9,0 6,5 Determine a Média.

Solução: Trata-se de uma população,

 = 11 5 , 6 0 , 9 5 , 5 0 , 6 5 , 8 0 , 4 0 , 7 5 , 7 0 , 5 5 , 4 5 , 3           = 6,09

Observação: O cálculo para a média da amostra é feito exatamente como o da população. A média utiliza todos os dados (da amostra ou da população) e, assim, é sensível a alteração de cada um deles, porém, não é capaz de perceber, por si só, qualitativamente a diferença da performance de dois alunos com mesma média, um deles com notas 5,0, 5,0 e 5,0 e outro com notas 2,0, 5,0 e 8,0 e decidir qual deles teve melhor evolução no aproveitamento escolar. Outro exemplo com amostras de mesma média: decidir qual é a melhor entre duas máquinas na produção de parafusos, uma mantendo a precisão do diâmetro estabelecido e a outra, desregulada, apresentando medidas longe do fixado.

(13)

Definindo-se como desvio de uma observação a diferença entre o valor desta observação e um dado número. Verifica-se que:

a) a soma dos desvios em relação a média é sempre igual a zero;

b) a soma dos quadrados dos desvios em relação a média é menor do que a soma dos quadrados dos desvios em relação a qualquer outro valor diferente dela. Veja um exemplo no quadro abaixo:

Série de dados Desvio =5,0) (desvio)2 (=5,0) (desvio)2 (desvio)2 Xi (Xi - ) (Xi - )2 (Xi – 4,0 )2 (Xi – 6,0)2 2,0 -3,0 9,0 4,0 16,0 5,0 0,0 0,0 1,0 1,0 8,0 3,0 9,0 16,0 4,0 Somas 0,0 18,0 21,0 21,0

O quadro acima mostra, na coluna 2, que a soma dos desvios em relação a média é zero e, na coluna 3, a soma dos quadrados dos desvios em relação a média, 18,0, menor do que os obtidos nas colunas 4 e 5, 21,0, em relação a outros números.

1.6. MEDIDAS DE DISPERSÃO

Os exemplos citados na observação de 1.5.5 nos mostram a necessidade de se estabelecer medidas que indiquem o espalhamento dos dados, pois uma medida de posição não nos permite verificar a dispersão dos elementos da série.

As medidas de dispersão devem aferir o grau de espalhamento dos dados em torno de uma medida de posição: média, moda, mediana, ... . Escolheremos a média para nossos estudos.

1.6.1. DESVIO MÉDIO ABSOLUTO (DMA)

Vamos admitir uma população x1, x2, x3, ... , xn com média x . Consideremos o valor absoluto das diferenças entre cada observação xi e a média x ( isto é, xix ) e , depois, a média aritmética destas diferenças. Ao número assim obtido chamaremos de desvio médio absoluto.

DMA = x1x + x2x + x3x + .... + xn x n ou, DMA = n x n i x i

  1 

, onde x é a média da população.

Havendo valores repetidos na série dada, podemos escrever a fórmula DMA como segue: DMA = 1 k i x i i x f n   

(14)

EXEMPLO:

Os números abaixo se referem às notas obtidas em uma prova de Estatística. 3,5 4,5 5,0 7,5 7,0 4,0 8,5 6,0 5,5 9,0 6,5 Obtenção do DMA: X = 11 5 , 6 0 , 9 5 , 5 0 , 6 5 , 8 0 , 4 0 , 7 5 , 7 0 , 5 5 , 4 5 , 3           = 6,09 e DMA = 11 09 , 6 5 , 6 09 , 6 0 , 9 09 , 6 5 , 7 09 , 6 0 , 5 09 , 6 5 , 4 09 , 6 5 , 3            Assim, DMA = 11 09 , 16 = 1,46

Nota: O número 1,46 revela a distância média das notas em relação a x. Se considerássemos o Desvio Médio (sem valor absoluto) obteríamos valor zero, pois os sinais das diferenças sempre se compensam (veja a segunda coluna do quadro em 1.5.5.).

EXEMPLO:

Os números abaixo se referem às notas obtidas em uma prova de Matemática. 3,0 3,0 5,0 5,0 5,0 7,0 7,0 Temos: X

1 1 1 3,0.(2) 5,0.(3) 7,0.(2) 5,0 7 k i i i x f n   

    e DMA = 1 k i x i i x f n   

= 1

3, 0 5, 0 .(2) 5, 0 5, 0 .(3) 7, 0 5, 0 .(2)

1,14 7       . 1.6.2. VARIÂNCIA (VAR)

No quadro, apresentado no estudo da Média em 1.5.5, vimos que “a soma dos quadrados dos desvios (de cada elemento de uma população ou amostra) em relação a média  ou x é menor que a soma dos quadrados dos desvios em relação a outro valor diferente dela” e, por isto, com a idéia de medir a variabilidade dos elementos de uma amostra, usaremos este fato.

Seja X a série de observações : x1 , x2 , x3 , x4 , ... xn referentes a uma população ou uma amostra. Definimos como Variância para populações e amostras:

Var(X) = 2X =

n x n i X i 2 1

  e Var(X) = S = X2

 

1 2 1  

n x x n i i . Havendo valores repetidos, teremos:

(15)

Var(X) = 2X =

2 1 k i X i i x f n   

e Var(X) = S = 2X

2 1 1 k i i i x x f n   

.

A variância é a média dos quadrados dos desvios em relação a média da população (X) ou da amostra ( x ). Prova-se que SX2 é o melhor estimador de

2

X

 . (apêndice 4(2) ) EXEMPLO:

No caso das notas de Estatística dado acima a variância será:

X2 =

 

 

 

11 09 , 6 5 , 6 09 , 6 0 , 9 09 , 6 0 , 5 09 , 6 5 , 4 09 , 6 5 , 3  2   2   2   2   2 = 11 4091 , 32 = 2,95

Observação: Se os elementos da série fossem todos iguais, então a Var(X) seria igual zero. A variância não pode ser um número negativo. Por que?

Pela definição, a unidade de medida da variância é o quadrado da unidade com que foram apurados os dados; no exemplo dado, a unidade das notas é o ”ponto” e a variância se refere a “ponto ao quadrado”. Parece estranho?

1.6.3. DESVIO-PADRÃO (DP)

Pretendemos obter uma medida de dispersão com mesma unidade dos dados da população (ou amostra) e que seja minimal. Definimos, então, o Desvio-Padrão como sendo a raiz quadrada positiva da variância,

para população: DP(X) = X = X2 e para amostra: DP(X) = SX = SX2

Se duas séries têm a mesma média e desvios-padrões diferentes, a série que apresentar maior desvio padrão tem as suas observações mais espalhadas em relação a média. Desta forma, podemos decidir, por exemplo, qual das duas máquinas que fabrica parafusos está melhor regulada.

Observação: O espalhamento dos dados numa distribuição normal (ver 6.3) pode ser entendido do seguinte modo:

Imagine a figura de uma reta contendo os dados de uma população e um ponto sobre ela correspondendo à Média destes dados e tome este ponto como o centro de um círculo de raio igual ao desvio padrão; você terá 68% das observações da série sobre o diâmetro do círculo, com raio de dois desvios padrões estarão 95,44% e com três desvios, praticamente, 100% dos dados (ver 6.3.5).

Havendo elementos repetidos na série dada, teremos, respectivamente, para população e amostra as fórmulas:

(16)

 =  2 1 . k i i i x f n   

e S = 2 1 2 1 1 k i i k i i i x f x f n n            

, onde f é a freqüência absoluta de xi i para cada índice i , sendo i = 1,2,3, ... .

1.6.4. Coeficiente de Variação ( CV )

Caso as séries, das quais precisamos comparar o espalhamento dos dados, não tenham mesma média, o que é comum de ocorrer, devemos utilizar uma medida chamada coeficiente de variação que indica a razão entre o desvio-padrão e a sua respectiva média. Temos: para população: CVX =

X X   e para amostras: CVX = X SX . Observação: A série que apresentar menor CV terá menor dispersão.

EXEMPLO

Inicialmente com preços iguais, dois atacadistas A e B alteraram suas planilhas de venda, conforme indica (em percentuais) a tabela abaixo:

Produtos A (%) B (%) Açúcar 6 6 Álcool 4 5 Arroz 2 3 Azeitona 8 6 Farinha 1 3 Feijão 3 5 Linguiça 5 4 Macarrão 3 2 Óleo 7 7 Sal 0 2 Total 39 43

Qual dos atacadistas tem maior dispersão percentual nos preços? Solução:

Usando as fórmulas da  ,  e CV para as alterações de cada um dos atacadistas, formamos a tabela:

A (%) B (%)

 3,9 4,3

 2,47 1,68 CV 0,63 0,39

Nota-se que o CV de A é maior que o CV de B, portanto, A tem maior dispersão nos preços.

(17)

Observação: O CV também pode nos passar a idéia de confiabilidade. Por exemplo, imaginando agora A e B como sendo duas carteiras de ações, onde os produtos são substituídos por uma seqüência de meses do ano e os percentuais dos preços pelas respectivas rentabilidades, veríamos que, sendo o CV de A maior do que o CV de B, a carteira A ofereceria maior risco financeiro nas aplicações do que B.

--- EXERCÍCIOS DE APLICAÇÃO 1.2

1) Considere a série de observações:

27 43 34 29 38 35 39 31 29 35 26 35 26 37 27 a) escreva as observações da série em ordem crescente.

b) calcule os percentis das observações 4, 8 e 12 da série (crescente). c).calcule o valor da observação para o percentil 40% da série (crescente). 2) Utilizando a série do exercício acima, calcule:

a) os valores da Moda, da Média e da Mediana.

b) a relação de ordem entre a Moda, a Média e a Mediana. 3) Considerando a série do exercício 1, pede os quartis:

a) Q1 b) Q2 c) Q3

4) Determinar a porcentagem das observações da série correspondente à tabela do exercício 1 que estão incluídas em 1, 2 e 3 desvios-padrão.

5) As rentabilidades nos últimos 5 anos das ações A e B estão registradas na tabela: A B 10% 10% 12% 13% 10% 12% 11% 7% 13% 12%

Qual das ações oferece maior risco (maior dispersão)?

6) A produção mensal de sapatos de uma industria é de 30 lotes de 1.000 sapatos. Escolhendo-se 6 lotes como amostra, observou-se o número de sapatos

defeituosos de cada lote:

Amostra 1 2 3 4 5 6 Defeituosos 30 45 51 68 49 60

Pede-se estimar o número de sapatos com defeito em um mês de trabalho.

(18)

7) Uma amostra de cadarços de sapatos foi colhida na linha de produção de uma máquina com as seguintes medidas (cm) de comprimento:

22,3 23,0 22,3 21,0 22,3 22,4 23,2 23,0 20,1 23,5 23,0 23,5 21,0 23,2 22,3 23,2 22,3 23,0 22,3 22,4 21,0 22,3 23,5 23,0 22,4 22,3 23,0 23,0 22,4 21,0

Obter:

a) as distribuições das freqüências absolutas, relativas e acumuladas de cada observação distinta na série estatística.

b) o valor da média, da moda e da mediana. Estabelecer a relação de ordem entre estas medidas de posição.

c) o desvio médio absoluto, a variância, o desvio-padrão e o coeficiente de variação

Compare os resultados obtidos por

2 1 i i x x f n  

e

2 2 1 i i i i x f x f n n  

. Use o quadro abaixo para facilitar as operações:

Xi fi xi . fi i x xxxi fi 2 i x x fi 2 i x fi fac fri

8) Considere a série de observações:

22 23 23 24 24 25 25 25 25 27 27 27 29 31 Obter:

a) o percentil do 7 termo da série;

b) o valor da série correspondente ao percentil 50% e ao 25%; c) as distribuições de freqüência absoluta e freqüência relativa ; d) a média, a moda e a mediana;

e) a variância;

f) o desvio-padrão e o coeficiente de variação. 9) Dada a distribuição de freqüência abaixo, pede-se:

a) média aritmética d) variância b) mediana e) desvio-padrão

(19)

xi fi xi . fi i x xxxi fi 2 i x x fi 2 i x fi fac fri 31,5 1 32,5 5 33,5 11 34,5 8 35,5 3 36,5 2

--- 1.7. CONSIDERAÇÕES GERAIS PARA VARIÁVEIS CONTÍNUAS

A freqüência absoluta de cada valor de uma variável contínua é, praticamente, unitária e, neste caso, a tabela (de freqüências absolutas), como fizemos até agora com os dados discretos, se torna longa, trabalhosa e pouco eficiente para se obter informações de interesse geral. Imagine que 100 alunos de uma sala tenham suas notas de aproveitamento entre 0 e 10, com precisão de duas casas decimais. As coincidências de notas seriam raras e o conjunto delas pouco nos diria a respeito da performance da turma, mas, se consideradas em intervalos, por exemplo, de 0 a 2, 2a 4,....,as freqüências das notas dos respectivos intervalos nos falariam com mais clareza a respeito do aproveitamento destes alunos. Outro exemplo, na direção do que estamos falando, é o da amostra abaixo que se refere as medidas de comprimento (centímetros) de coelhos com 40 dias de vida.

14,5 13,2 13,7 12,7 13,3 14,6 12,1 13,8 14,7 13,4 13,4 14,4 13,6 13,2 13,5 13,0 14,3 13,0 13,1 13,7 12,9 12,8 15,1 12,8 14,3 13,0 12,5 12,7 14,3 13,3 12,8 14,9 13,1 14,3 13,2 13,9 13,5 13,2 12,6 12,7 14,2 13,2 12,6 14,4 13,5 13,4 12,7 14,4 12,4 13,2 12,4 12,3 14,1 12,3 13,6 13,0 13,3 14,8 14,0 12,9 14,1 13,8 15,3 13,4 12,6 Usaremos esta amostra para exemplificar os conceitos que seguem: 1.7.1. AMPLITUDE (TAMANHO) DA AMOSTRA

A amplitude  de uma amostra é dada pela diferença entre as observações de maior valor numérico e a de menor valor:  = xmáx - xmín

No exemplo acima, temos:  = 15,3 – 12,1 = 3,2 1.7.2. CLASSES

Queremos dividir a amplitude  de uma amostra em classes (subintervalos), todas com o mesmo tamanho. Não existe regra para escolher o número destas classes. É recomendável que a amplitude da amostra seja dividida entre 5 e 15 classes. Existem sugestões que orientam na determinação do número k de classes em uma amostra com n elementos: Se n25, tomar k5 ou se n25 tomar k = n ou, também, k = 1 + 3,322 log(n) (fórmula de Sturges) , ... com arredondamento para o inteiro mais próximo.

Tomaremos, no exemplo, k = 65 = 8,06 , portanto, k = 8 classes. Caso n fosse maior do que 65 usaríamos a fórmula de Sturges.

(20)

A amplitude de cada classe é dada por c= k  , no exemplo, c= 8 2 , 3 = 0,4.

A tabela a seguir mostra os limites inferiores e superiores de cada classe: Classes Limite inferior Limite superior

1 12,1 12,5 2 12,5 12,9 3 12,9 13,3 4 13,3 13,7 5 13,7 14,1 6 14,1 14,5 7 14,5 14,9 8 14,9 15,3

A quantidade dos elementos (freqüência absoluta) de uma classe deve ser obtida pela contagem dos elementos da amostra que estão compreendidos entre os seus limite inferior (incluso) e limite superior (não incluso). Assim, no exemplo, 15,3 não foi incluído na última classe e, por isto, vamos considerar uma classe a mais. Outra atitude seria a de ampliar o intervalo de classe c.

Consideremos xi =

2

i i L

l

o ponto médio da classe i, i = 1,2,3,...,n, onde li é o seu limite inferior e Li o limite superior: li Li .

xi Classes (limites aparentes) fi xi

12,1 12,5 5 12,3 12,5 12,9 11 12,7 12,9 13,3 14 13,1 13,3 13,7 12 13,5 13,7 14,1 6 13,9 14,1 14,5 10 14,3 14,5 14,9 4 14,7 14,9 15,3 2 15,1 15,3 15,7 1 15,5 65

Observação: Os limites assim estabelecidos são chamados de limites aparentes.

Para que os elementos da amostra não coincidam com os limites das classes, considera-se uma nova amplitude para elas. No exemplo, os limites li e Li de cada classe são diminuídos de meio centésimo da unidade de medida estabelecida, constituindo novos limites de classe chamados limites reais .

Classes (limites reais) fi Xi fri

12,05 12,45 5 12,25 5/65 = 0,0769 12,45 12,85 11 12,65 11/65 = 0,1692 12,85 13,25 14 13,05 14/65 = 0,2154 13,25 13,65 12 13,45 12/65 = 0,1846 13,65 14,05 6 13,85 6/65 = 0,0923 14,05 14,45 10 14,25 10/65 = 0,1539 14,45 14,85 4 14,65 4/65 = 0,0615 14, 85 15,25 2 15,05 2/65 = 0,0308 15,25 15,65 1 15,45 1/65 = 0,0154 65 1

(21)

1.7.3. HISTOGRAMA

O gráfico de colunas justapostas de uma distribuição de freqüências absolutas de uma variável contínua, onde as bases das colunas têm o comprimento c e as alturas com as respectivas freqüências absolutas das classes, é chamado de histograma.

fi

15 (foi indicado no eixo horizontal apenas os xi , centros das classes)

10 5 0 . 12,25 12,65 13,05 13,45 13, 85 14,25 14,65 15,05 15,45 Xi 1.7.4. POLIGONO DE FREQÜÊNCIAS

O polígono de freqüências é obtido unindo-se os pontos médios das bases superiores dos retângulos do histograma por segmentos de reta e, também, com os pontos médios das classes de freqüência nula justapostas uma a esquerda e outra a direita do referido histograma. fi 15 0 . 11,85 12,25 12,65 13,05 13,45 13,85 14,25 14,65 15,05 15,45 15,85 Xi

1.7.5. POLÍGONO DE FREQÜÊNCIAS ACUMULADAS (Ogiva de Galton)

A linha poligonal que une os pontos de abcissas iguais aos valores dos limites reais de classe e ordenadas iguais aos valores das respectivas freqüências acumuladas, incluindo as classes de frequência nula justapostas a esquerda e direita do histograma, é chamada de Ogiva de Galton.

(22)

1.8. CALCULO DAS MEDIDAS DE TENDÊNCIA CENTRAL E DE DISPERSÃO

Obter os valores da média, moda, mediana, quartil, percentil e desvio-padrão da amostra dada pela tabela em 1.7.2 para limites reais.

1.8.1. CALCULO DA MÉDIA E DESVIO-PADRÃO DA AMOSTRA

Tabela auxiliar: Os cálculos das colunas 4 e 5 auxiliam na obtenção de X e S.

Classes (limites reais) fi Xi xi fi xi2 fi fri fac 12,05 12,45 5 12,25 61,25 750,3125 0,0769 5 12,45 12,85 11 12,65 139,15 1760,2475 0,1692 16 12,85 13,25 14 13,05 182,70 2384,2350 0,2154 30 13,25 13,65 12 13,45 161,40 2170,8300 0,1846 42 13,65 14,05 6 13,85 83,10 1150,9350 0,0923 48 14,05 14,45 10 14,25 142,50 2030,6250 0,1539 58 14,45 14,85 4 14,65 58,60 858,4900 0,0615 62 14, 85 15,25 2 15,05 30,10 453,0050 0,0308 64 15,25 15,65 1 15,45 15,45 238,7025 0,0154 65 65 874,25 11797,3820 1 X = n f x n i i i

1 = 65 25 , 874 = 13,45 (ver 1.5.5) S =

1 2 2  

n n f x f xi i i i =

64 65 25 , 874 3820 , 11797 2  = 0,78 (ver 1.6.3.) 30 0 15 45 60 11,65 12,05 12,45 12,85 13,25 13,65 14,05 14,45 14,85 15,25 15,65 16,05 f Xi ac

(23)

1.8.2. CÁLCULO DA MODA: Mo

Usaremos o método de King para determinar a moda. Mo = l oi + rp ra rp cf f f  

l oi é o limite real inferior da classe modal (de maior freqüência absoluta) c é a amplitude da classe

f é a freqüência relativa da classe modal ri

f é a freqüência relativa da classe anterior a modal ra

frp é a freqüência relativa da classe posterior a modal No exemplo, descrito pela tabela em 1.8.1

A classe com maior frequência absoluta localizada é a 12,85 13,25. A moda deve ser um valor no interior desta classe, isto é:

Mo = 12,85 +

 

1846 , 0 1692 , 0 1846 , 0 4 , 0  = 13,06

Existe, também, o método de Czuber para o cálculo da Moda:

Mo = loi + c

rp ra ri ra ri f f f f f    2 No exemplo: Mo = 12,85 + 0,4

 

1846 , 0 1692 , 0 2154 , 0 2 1692 , 0 2154 , 0    = 13, 09

Pode-se obter a moda pelo método gráfico: - considerar o histograma e proceder como indica a figura abaixo.

12,45 12,85 Mo 13,25 13,65 X É evidente que o valor M0 é aproximado.

(24)

1.8.3. CÁLCULO DA MEDIANA: Md

A mediana é o valor da amostra (organizada em ordem crescente ou decrescente) que ocupa a posição central. No exemplo, a ordem

2 1

n

=33 é a central, logo, Md = x33 . A coluna fac das freqüências acumuladas da tabela 1.8.1 indica que a ordem 33 está na classe 13,25 13,65, portanto, a mediana está nela.

classe 13,65 x33 = Md 13,25 30 33 42 ordem Usando semelhança de triângulos:

30 33 25 , 13   d M = 30 42 25 , 13 65 , 13    Md = 13,35 13,4

1.8.4. CÁLCULO DO PRIMEIRO QUARTIL: Q1

Sabemos que Q1 é o valor (separatriz) que divide a distribuição em duas partes, de modo que 25% dos valores sejam menores do que ele e 75% maiores que ele. No exemplo, a ordem 4 1  n =16,5 é a do primeiro quartil.

A coluna fac das freqüências acumuladas da tabela 1.8.1 indica que a ordem 16,5 está na classe 12,85 13,25 , portanto, o Q1 está nela.

classe 13,25 Q1 12,85 16 16,5 30 ordem Usando semelhança de triângulos:

Q1 12,85 16,5 16   = 30 16 85 , 12 25 , 13    Q1 = 12,86

(25)

Observação: Q2 = Md =13,4 e Q3 divide a distribuição em duas partes, sendo 75% dos valores menores do que ele e 25% maiores do que ele. Para o cálculo de Q3 proceder analogamente ao de Q1.

1.8.5. CALCULO DE PERCENTIL: Pi

Vamos calcular, no exemplo descrito pela tabela 1.8.1, o percentil P80 que divide a série em 80% dos valores menores do que ele e 20% maiores que ele.

(%) 100% 80% 0% 1 80 65 (ordem na série) 80 1 80% 0%    = 65 1 100% 0%    80 = 52,2

A coluna fac das frequências acumuladas da tabela 1.8.1 indica que a ordem 52 está na classe 14,05 14,45 , portanto, o P80 está nela.

classe 14,45 P80 14,05 48 52,2 58 ordem Usando semelhança de triângulos:

P80 14, 05 52, 2 48   = 58 48 05 , 14 45 , 14    P80 = 14,21.

(26)

Outro modo de se obter o percentil P

80

Utilizaremos a coluna das freqüências relativas, fri , da tabela auxiliar em 1.8.1 para o nosso propósito.

Se adicionarmos as freqüências relativas das 5 primeiras classes, teremos a soma 0,7384, isto é, 73,84% dos elementos da série são menores que o limite inferior da 6ª classe, que é 14,05. A soma das freqüências relativas das seis primeiras classes é 0,8923, significando que 89,23% dos elementos da série são menores do que 14,45. Portanto, o percentil P80 encontra-se no interior da 6ª classe e, certamente, 80% dos elementos da série são menores do que ele.

(%) 89,23% 80% 73,84% 14,05 P80 14,45 classe Considerando a semelhança de triângulos, temos:

80 P 14, 05 14, 45 14, 05 80% 73,84% 89, 23% 73,54%      80 P 14, 05 14, 45 14, 05 0,80 0, 7384 0,8923 0, 7354     P8014, 21. --- EXERCÍCIOS DE APLICAÇÃO 1.3

1) Construa uma tabela de distribuição de freqüências absolutas, acumulada e relativa com os dados abaixo organizados em classes, tomando como referência o exemplo acima. Determine, a média, desvio padrão, moda, mediana, histograma e polígono de freqüências.

11,2 10,1 12,3 12,4 13,2 13,5 13,7 14,3 15,2 14,0 13,0 11,0 15,3 16,0 13,2 14,1 13,8 11,3 12,1 14,4 14,5 11,1 12,6 13,6 13,2 16,1 15,1 12,5 10,2 14,6 12,2 13,2

2) Dado o histograma abaixo, pede-se a média, a moda e a mediana da distribuição fi

Referências

Documentos relacionados

dois gestores, pelo fato deles serem os mais indicados para avaliarem administrativamente a articulação entre o ensino médio e a educação profissional, bem como a estruturação

São considerados custos e despesas ambientais, o valor dos insumos, mão- de-obra, amortização de equipamentos e instalações necessários ao processo de preservação, proteção

Fita 1 Lado A - O entrevistado faz um resumo sobre o histórico da relação entre sua família e a região na qual está localizada a Fazenda Santo Inácio; diz que a Fazenda

A Justiça Restaurativa traz um novo olhar sobre todo o processo que envolve os conflitos, permitindo uma posição mais humana e focada no futuro e nas pessoas

Maria Constanza Rodriguez, Mara Eliza Gasino Joineau, Suelly Madeleine Santos de Lucca, Rosiane Tallevi, Sue Ellen de Souza, Gisele Barbosa, Angélica Vieira da Silva Bertoncello

Ficou com a impressão de estar na presença de um compositor ( Clique aqui para introduzir texto. ), de um guitarrista ( Clique aqui para introduzir texto. ), de um director

Detectadas as baixas condições socioeconômicas e sanitárias do Município de Cuité, bem como a carência de informação por parte da população de como prevenir

a) Comida, energia elétrica, TV por assinatura e pacotes de telefonia não utilizáveis. b) Supermercado, TV por assinatura, energia elétrica e pacotes de telefonia