• Nenhum resultado encontrado

Estatística Área 4 BACEN Aula 01 Estatística Descritiva Prof. Alexandre Lima. Aula 01. Sumário

N/A
N/A
Protected

Academic year: 2021

Share "Estatística Área 4 BACEN Aula 01 Estatística Descritiva Prof. Alexandre Lima. Aula 01. Sumário"

Copied!
72
0
0

Texto

(1)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 1

Sumário

1 Introdução à Estatística ... 3 2 Tipos de Variáveis ... 4 3 Rol ... 5 4 Séries Estatísticas ... 6

5 Técnicas de Descrição Gráfica ... 8

5.1 Descrição Gráfica de Variáveis Qualitativas... 8

5.2 Descrição Gráfica de Variáveis Quantitativas Discretas ... 9

5.3 Descrição Gráfica de Variáveis Quantitativas Contínuas ... 11

6 Caracterização de uma Distribuição de Frequências ... 15

6.1 Medidas de Posição ... 15 6.2 Medidas de Dispersão ... 29 6.2.1 Variância ... 29 6.2.2 Desvio Padrão ... 39 6.2.3 Coeficiente de Variação ... 40 6.2.4 Desvio Interquartílico ... 40

7 Medidas sobre Dados Bivariados ... 41

7.1 Covariância e Correlação ... 41

8 O Mínimo que Você Precisa Saber ... 48

9 Exercícios de Fixação ... 50

10 Gabarito ... 55

11 Resolução dos Exercícios de Fixação ... 56

(2)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

2 Olá, tudo bem com você? Bem vindo ao curso! O foco da aula de hoje é introduzir a Estatística Descritiva. Faremos uma revisão sobre gráficos, tabelas, séries, tipos de variáveis, distribuições de freqüência, medidas sobre dados univariados (média, mediana, moda, desvio padrão, variância, coeficiente de variação etc.) e medidas sobre dados bivariados (covariância e correlação). É sempre bom começar do início!

As notas explicativas estão indicadas pelos símbolos (*) ou (**). Optei por não usar notas de rodapé para que haja uma melhor fluência da sua leitura. A última seção da exposição teórica traz um resumo de alguns conceitos e fórmulas importantes para a prova: é o mínimo que você precisa saber para a prova!

(3)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

3

1

Introdução à Estatística

A Estatística é a ciência que se preocupa em coletar, analisar e fazer inferências a partir de dados. A sua matéria-prima é um conjunto de dados.

Ela é uma ciência meio, e não fim, sendo útil em vários campos do conhecimento, tais como física, engenharia, medicina, atuária, biologia, economia, administração, etc.

Métodos estatísticos nos ajudam a entender o problema da variabilidade. Mas o que seria essa variabilidade? A idéia é simples. Diversas observações de um sistema ou fenômeno não produzem exatamente o mesmo resultado. E isto ocorre porque sistemas/fenômenos físicos estão sujeitos à variabilidade. Considere, por exemplo, o consumo mensal de energia elétrica da sua casa. Você observa o mesmo consumo mensal todos os meses? É claro que não! Às vezes, o consumo varia consideravelmente, como nos meses de verão (devido ao uso de ar-condicionado, ventilador, etc.) e de inverno (por causa da utilização de sistemas de aquecimento, secadora de roupas, etc.). Outro exemplo prático seria a arrecadação mensal de tributos do governo. O governo precisa saber quais são as fontes potenciais de variabilidade no sistema de arrecadação. É aí que entra a Estatística, pois ela é capaz de descrever a

variabilidade e de indicar quais fontes de variabilidade são mais importantes

ou quais têm impacto significativo sobre o desempenho da arrecadação.

A Estatística pode ser dividida em duas partes: a Estatística Descritiva, que aborda a coleta, organização e a descrição dos dados experimentais (*), e a

Inferência Estatística (ou Estatística Indutiva), cujo objetivo é inferir

propriedades de um agregado maior (a população) a partir de um conjunto menor (a amostra). A inferência estatística não é exata; as suas induções sempre possuem um determinado grau de incerteza (**)

(*) As etapas de coleta, organização é descrição podem ser resumidas pela terminologia síntese dos dados.

(**) A indução é um processo de raciocínio em que, partindo-se do conhecimento de uma parte, procura-se tirar conclusões sobre o todo.

Uma população ou universo é um conjunto de elementos com pelo

menos uma característica comum. A população pode ser finita ou infinita.

Por exemplo, o número de pneus defeituosos produzidos em um dia por uma determinada fábrica, é uma população de tamanho finito. Já as observações obtidas pela medição diária de gases de efeito estufa representam uma população de tamanho infinito. A característica comum deve delimitar de forma exata quais os elementos que pertencem à população e quais os que não pertencem. Considere, por exemplo, a população dos indivíduos do sexo masculino inscritos no próximo concurso para o BACEN. Essa população não inclui as pessoas do sexo feminino que farão o mesmo concurso.

(4)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

4 Depois que caracterizamos a população, procedemos ao levantamento de dados acerca da característica (ou características) de interesse no estudo em questão. Na maioria dos problemas de inferência estatística, é impossível ou impraticável observar toda a população. Devemos então restringir nossas observações a uma parte da população, isto é, a uma amostra proveniente dessa população. Uma amostra é, portanto, um subconjunto finito de uma

população, e todos os seus elementos serão examinados para a realização do

estudo estatístico desejado.

Quanto maior a amostra, mais precisas e confiáveis serão as induções realizadas sobre a população. No limite, resultados 100% confiáveis podem ser obtidos através do exame completo da população. Na prática, isso não é necessário, pois induções suficientemente precisas e confiáveis podem ser realizadas desde que o tamanho da amostra seja corretamente dimensionado. Retornaremos ao estudo da Inferência Estatística, de forma bastante detalhada, em aulas posteriores. A partir deste ponto, voltaremos a nossa atenção para o foco desta aula, que é o estudo da Estatística Descritiva.

2

Tipos de Variáveis

A função da Estatística Descritiva é organizar as informações contidas nos resultados observados.

De forma geral, podemos ter cada um dos elementos de uma população ou amostra associado a mais de uma característica de interesse. Por exemplo, o conjunto dos elementos sob investigação pode ser uma amostra da população dos candidatos do sexo masculino inscritos no último concurso para o BACEN. Este é o conjunto dos elementos fisicamente definidos e considerados. Para este conjunto, as variáveis (características) de interesse poderiam ser: idade, peso e altura. Neste curso, veremos apenas o caso de variáveis

unidimensionais, em que apenas uma característica de interesse está associada a cada elemento do conjunto examinado. Há casos, porém, em

que duas ou mais características precisam ser simultaneamente estudadas. A característica de interesse poderá ser qualitativa ou quantitativa. Tem-se, portanto, variáveis qualitativas ou quantitativas.

A variável será qualitativa quando resultar de uma classificação por tipos ou atributos, como, por exemplo:

a) População: moradores de uma cidade. Variável: sexo (masculino ou feminino).

(5)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

5 Variável: qualidade (perfeita ou defeituosa).

Os atributos ou variáveis qualitativas são denominados ordinais sempre que pode-se estabelecer uma ordem ou hierarquia entre as respostas obtidas no levantamento estatístico. Por exemplo, o IBGE efetua periodicamente o levantamento do grau de instrução dos brasileiros por meio de um censo completo da população. As respostas possíveis para essa pesquisa seriam algo como “sem instrução escolar”, “nível fundamental incompleto”, “nível fundamental completo”, “nível médio incompleto”, “nível médio completo”, “nível superior incompleto” e “nível superior completo. Essas respostas não são números, são variáveis qualitativas. Como é possível estabelecer uma hierarquia entre as possíveis respostas, tem-se uma variável qualitativa

ordinal.

Por outro lado, a variável será quantitativa quando seus valores forem expressos em números. As variáveis quantitativas podem ser discretas ou

contínuas. Uma variável contínua é aquela cujos possíveis valores pertencem

a um intervalo de números reais e que resulta de uma mensuração, como, por exemplo, a estatura de um indivíduo. Uma variável discreta é aquela cujos possíveis valores formam um conjunto finito ou enumerável de números, e que resultam, freqüentemente, de uma contagem.

Exemplos de variáveis discretas:

a) População: casais residentes em um distrito de uma cidade. Variável: número de filhos.

b) População: carros produzidos em uma linha de montagem. Variável: número de defeitos por unidade.

Exemplos de variáveis contínuas:

a) População: detergentes de uma certa marca e tipo. Variável: peso líquido.

b) População: peças produzidas por uma máquina. Variável: diâmetro externo.

A Estatística Descritiva pode descrever os dados através de gráficos,

distribuições de frequência ou medidas associadas a essas distribuições, conforme veremos a seguir.

3

Rol

Vimos que a organização dos dados coletados é uma das etapas do processo estatístico a cargo da Estatística Descritiva.

(6)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

6

Um rol é um arranjo dos dados em ordem crescente ou decrescente.

Assim, {10, 8, 20, 12, 15, 3, 2, 4} são dados brutos e {2, 3, 4, 8, 10, 12, 15, 20} constituem o rol.

4

Séries Estatísticas

As tabelas são recursos utilizados pela Estatística, com o objetivo de organizar e facilitar a visualização e comparação dos dados. As tabelas permitem uma visão geral dos valores assumidos pelas variáveis dentro de certos parâmetros. É chamada série estatística toda tabela que apresenta um conjunto de dados estatísticos distribuídos em função da época, do local ou da espécie. As séries estatísticas podem ser classificadas em

 históricas;

 geográficas;

 específicas; e

 distribuição de frequências.

Exemplos:

1) Série histórica: Índice Nacional de Preços ao Consumidor Amplo (IPCA)

IPCA (%) Jun/2011 0,15 Mai/2011 0,47 Abr/2011 0,77 Mar/2011 0,79 Fev/2011 0,80 Jan/2011 0,83 Dez/2010 0,63 Nov/2010 0,83 Out/2010 0,75 Set/2010 0,45 Ago/2010 0,04 Jul/2010 0,01 Jun/2010 0,00 Fonte: IBGE

(7)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

7 2) Série geográfica: os 10 maiores PIB do mundo

PIB 2010

País US$ (bilhões)

EUA 14.582 China 5.878 Japão 5.497 Alemanha 3.309 França 2.560 Reino Unido 2.246 Brasil 2.087 Itália 2.051 Canadá 1.574

Fonte: Banco Mundial

3) Série específica: número de formandos por curso de graduação de uma universidade. NÚMERO DE ALUNOS EGRESSOS - 2010 Cursos No de egressos Engenharia 100 Direito 250 Administração 150 Economia 50 Contabilidade 50 (*) Valores hipotéticos 4) Distribuição de frequências:

Altura dos alunos de uma academia ginástica Alturas (m) No de alunos 1,50 |-- 1,60 25 1,60 |-- 1,70 45 1,70 |-- 1,80 80 1,80 |-- 1,90 15 1,90 |-- 2,00 5 2,00 |-- 2,10 1 (*) Valores hipotéticos

O conceito de distribuição de frequências é importante para a prova e será visto com um maior grau de detalhamento na próxima seção.

(8)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

8

5

Técnicas de Descrição Gráfica

A frequência de um dado valor de uma variável (qualitativa ou quantitativa) é definida como o número de vezes que esse valor foi observado. Seja fi a

frequência do i-ésimo valor observado. Se o número total de elementos observados é n, então vale a relação

(1) f n k i i

1

em que k denota o número de diferentes valores existentes da variável.

A associação das respectivas frequências a todos os diferentes valores observados define a distribuição de frequências do conjunto de valores observados. Também podemos trabalhar com a noção de frequência relativa de um valor observado, definida como

(2) n f p i i  . Observe que (3)

  k 1 1 i i p .

5.1 Descrição Gráfica de Variáveis Qualitativas

O gráfico obtido por meio do cálculo das frequências ou frequências relativas poderá ser um diagrama de barras, um diagrama circular ou qualquer outro tipo de diagrama equivalente.

Exemplo. Considere um grupo de 147 candidatos a um curso de MBA,

classificados segundo a sua graduação, conforme a Tabela 1. Tabela 1: formação de graduação.

Formação Frequências Freq. Relativa (%)

Engenheiros 45 30,61 Administradores 38 25,85 Economistas 35 23,81 Contadores 16 10,88 Outros 13 8,84 Total 147 100,00

(9)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

9 Os dados estão representados por meio de um diagrama de barras e por um diagrama circular (veja as duas figuras a seguir).

5.2 Descrição Gráfica de Variáveis Quantitativas Discretas

A descrição gráfica de variáveis quantitativas discretas é normalmente feita por meio de um diagrama de barras. Como a variável é quantitativa, seus valores numéricos podem ser representados num eixo horizontal. Neste caso, as barras do diagrama serão verticais.

Exemplo. Considere a variável “número de defeitos por unidade” obtidos a

partir de produtos retirados de uma linha de produção. Seja o conjunto de 20 valores obtidos conforme a Tabela 2.

0 10 20 30 40 50 Engenheiros Economistas Administradores Contadores Outros 30% 24% 26% 11% 9%

Engenheiros Economistas Administradores Contadores Outros

(10)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

10 Tabela 2: distribuição de frequências.

xi fi pi 0 8 0,20 1 14 0,35 2 10 0,25 3 4 0,10 4 2 0,05 5 2 0,05 Total 40 1,00

A figura a seguir mostra o diagrama de barras associado aos dados da Tabela 2.

Também é possível representar graficamente os dados da Tabela 2 utilizando as frequências acumuladas, que serão denotadas por Fi. A frequência acumulada, em qualquer ponto do eixo horizontal (ou eixo das abscissas), é a soma das frequências de todos os valores menores ou iguais ao valor correspondente a esse ponto. De forma análoga, também

temos as frequências relativas acumuladas Pi. A Tabela 3 ilustra as frequências

e frequências relativas acumuladas para os dados da Tabela 2. A figura a seguir mostra o gráfico das frequências acumuladas.

(11)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

11 Tabela 3: frequências acumuladas.

xi Fi Pi 0 8 0,20 1 22 0,55 2 32 0,80 3 36 0,90 4 38 0,95 5 40 1,00

5.3 Descrição Gráfica de Variáveis Quantitativas Contínuas

O diagrama de barras não é usado na descrição gráfica de variáveis quantitativas contínuas (*). O Exemplo a seguir ilustra a técnica usualmente empregada na prática.

(12)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

12

Exemplo. Considere a variável comprimento de peças produzidas em uma fábrica, dada em centímetros:

10,4 10,5 10,8 10,2 10,6 10,6 10,2 10,7 10,4 10,5 10,3 10,5 10,4 10,7 10,4 10,9 10,5 10,3 10,6 10,5 10,4 10,5 10,6 10,9 10,7

Na Tabela 4, temos os dados acima organizados em termos de frequências e de frequências relativas, simples e acumuladas.

Tabela 4: distribuição das frequências e das frequências acumuladas.

xi fi Fi pi Pi 10,2 2 2 0,08 0,08 10,3 2 4 0,08 0,16 10,4 5 9 0,20 0,36 10,5 6 15 0,24 0,60 10,6 4 19 0,16 0,76 10,7 3 22 0,12 0,88 10,8 1 23 0,04 0,92 10,9 2 25 0,08 1,00 25 1,00

A próxima figura é uma representação gráfica das duas primeiras colunas da Tabela 4. É importante que você aprenda a interpretar corretamente o gráfico da figura a seguir. Por exemplo, a frequência 2 associada ao valor 10,3 quer dizer, na verdade, que temos dois valores compreendidos entre os limites 10,25 e 10,35, que foram aproximados, no processo de medição, para 10,3. Portanto, uma representação gráfica correta deverá associar a frequência 2 ao intervalo 10,25 - 10,35. Isto é feito por meio de uma figura formada com

retângulos cujas áreas representam as frequências dos diversos intervalos existentes. Tal figura é denominada histograma.

(13)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

13 No caso das variáveis contínuas, as frequências sempre serão associadas a intervalos de variação da variável e não a valores individuais. Tais intervalos são chamados de classes de frequências. Estas classes são usualmente representadas pelos seus pontos médios.

Variáveis contínuas também podem ser representadas pelo polígono de

frequências, que é obtido unindo-se os pontos médios dos patamares do

histograma. Para completar a figura, consideram-se duas classes laterais com frequência nula (*). A figura a seguir ilustra o polígono de frequências correspondente ao histograma da figura anterior.

(*) Exceto no caso de variáveis essencialmente positivas cujo histograma se inicia no valor zero, pois não haveria sentido em se considerar um intervalo com valores negativos.

10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 11 0 1 2 3 4 5 6 7 x f

(14)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

14 A figura a seguir mostra os gráficos das frequências relativas acumuladas e do polígono de frequências relativas acumuladas (ou ogivas percentuais (*)) relativos ao último exemplo.

(*) O polígono de frequências acumuladas também pode ser chamado de

ogiva.

Na prática, às vezes é necessário agrupar os dados em classes de frequência que englobam diversos valores da variável. A frequência de cada classe será, nesse caso, igual à soma das frequências de todos os valores existentes dentro

10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 11 0 1 2 3 4 5 6 7 x f 10.2 10.3 10.4 10.5 10.6 10.7 10.8 10.9 11 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 x P

(15)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

15 da classe. Este procedimento corresponde a uma diminuição proposital da precisão com que os dados foram computados. O problema a resolver, em tais casos, é o de determinar qual o número k de classes a constituir, qual o tamanho ou amplitude h dessas classes e quais os seus limites. Seja R a amplitude do conjunto de dados, ou seja, a diferença entre o maior e o menor dos valores observados. Fixado o número k de classes, resulta

(4)

k R h .

6

Caracterização de uma Distribuição de Frequências

A distribuição de frequências de uma variável quantitativa também pode ser caracterizada por grandezas numéricas denominadas medidas da distribuição de frequências. As medidas buscam sumarizar as informações disponíveis sobre o comportamento de uma variável.

Há medidas de posição, de dispersão, de assimetria e de achatamento ou curtose. As medidas de posição e de dispersão são as mais importantes na prática e servem para localizar as distribuições e caracterizar a sua

variabilidade.

6.1 Medidas de Posição

As medidas de posição servem para localizar a distribuição de frequências sobre o eixo de variação da variável em questão. Estudaremos, nesta aula, a

média, a mediana e a moda.

A média e a mediana indicam, por critérios diferentes, o centro da

distribuição de frequências, ou seja, são medidas de tendência central.

A moda, por sua vez, indica a região de maior concentração de

frequências na distribuição.

Média Aritmética

Suponha que você more em São Paulo (capital) e que esteja planejando uma viagem de carro para o Rio de Janeiro (capital) pela rodovia BR-116 (rodovia Pres. Dutra) no próximo feriadão. Qual seria o tempo gasto na viagem? Bem, a resposta “mais exata”, do ponto de vista estatístico, uma vez que o tempo de viagem é uma grandeza aleatória (o tempo de viagem varia em função de fatores sobre os quais não temos controle tais como congestionamentos devidos a acidentes com veículos, fiscalizações da Polícia Rodoviária, etc.), seria fornecer a distribuição de frequências dos tempos de viagem de carro para o Rio de Janeiro (vamos admitir que você viaje de carro com alguma frequência para o Rio de Janeiro e que tenha coletado esse conjunto de dados). Porém, ninguém espera que você dê como resposta uma distribuição

(16)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

16 de frequências dos tempos de viagem. O que se espera é que você forneça o tempo esperado ou médio que será gasto na viagem. Como calculamos a média de uma distribuição de frequências? Responderemos essa pergunta na sequência.

A média aritmética, ou média, de um conjunto de n números x1,x2,...,xn é

definida por (leia-se “x barra”)

(5)     

x n x n n x x x x n i i n 1 1 ... 1 2 1

Exemplo. A média dos números 3, 4, 8, 11 e 13 é

8 , 7 5 13 11 8 4 3       x

Se k valores distintos observados x1,x2,...,xk ocorrerem com as frequências

k f f f1, 2,..., ( f n k i i

1

), respectivamente, a média será

(6)

                k i i i k i i i k i i k i i i k i k k i i x p x f n f x f f f f f x f x f x f x f x 1 1 1 1 2 1 2 2 1 1 1 ... ... ... ...

em que pi denota a i-ésima frequência relativa.

Exemplo. Se 4, 7, 5, 2 ocorrerem com as frequências 3, 2, 4 e 1,

respectivamente, a média aritmética será de

8 , 4 1 4 2 3 ) 1 2 ( ) 4 5 ( ) 2 7 ( ) 3 4 (            x

Mencionamos acima que a média caracteriza o centro da distribuição de frequências; fazendo uma analogia com a mecânica, poderíamos interpretar a média como sendo o “centro de gravidade” de uma distribuição de frequências. Podemos destacar as seguintes propriedades da média:

a) multiplicando todos os valores de uma variável por uma constante, a média do conjunto fica multiplicada por essa constante. Seja x a variável de interesse, c um valor constante e y = cx. Então ycx.

(17)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

17 b) somando ou subtraindo uma constante a todos os valores de uma variável, a média do conjunto fica acrescida ou diminuída dessa constante. Seja x a variável de interesse, c um valor constante e

c x

y  . Então yxc.

Média das médias

Sejam os conjuntos A com n valores, B com A n valores, ..., e K com B n K

valores. Se A tem média x , B tem média A x , ..., e K tem média B x , então a K

média do conjunto maior que é formado pela reunião de todos os elementos dos conjuntos A, B, ..., K em um único conjunto é dada por:

(7) K B A K K B B A A n n n x n x n x n x        ... ... ,

Exemplo. Em uma empresa, há 400 homens e 100 mulheres. Os salários

médios pagos aos empregados dos sexos masculino e feminino são de R$ 2.520,00 e R$ 2.420,00, respectivamente. Calcule a média global dos salários. Dados: nH 400, xH 2.520; nM 100, xM 2.420 500 . 2 500 420 . 2 100 520 . 2 400       M H M M H H n n x n x n x

Média global dos salários = R$ 2.500,00

Outros Tipos de Média

Podemos definir outros tipos de média de um conjunto de dados, tais como a

média geométrica x , a média harmônica g x e a média ponderada h x p

dadas por (8) n n g x x x x1. 2... (9) n h x x x n x 1 ... 1 1 2 1     (10) n n n p w w w x w x w x w x        ... ... 2 1 2 2 1 1

(18)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

18

Exemplo. A média geométrica dos números 2, 4 e 8 é:

4 64 8 4 2 3 3      g x

Exemplo. A média harmônica dos números 2, 4 e 8 é:

43 , 3 8 1 4 1 2 1 3    h x

Exemplo. O desempenho em um curso de graduação é avaliado por meio das

notas obtidas nas provas bimestrais P1 e P2 e pela nota de Atividades (A). Sabendo-se que a P2 tem peso 5, que a P1 tem peso 2 e que A tem peso 3, determine a média final do aluno que obteve as seguintes notas (em uma escala de 0 a 10): P1 = 5,0, P2 = 4,5 e A=8,5. 8 , 5 10 0 , 58 3 5 2 ) 5 , 8 3 ( ) 5 , 4 5 ( ) 0 , 5 2 (           p x

Relação entre as médias aritmética, geométrica e harmônica

A média geométrica de um conjunto de números positivos x1,x2,...,xn é menor

do que ou igual à sua média aritmética, mas é maior do que ou igual à sua média harmônica:

média harmônica≤ média geométrica ≤ média aritmética

Média de uma Distribuição de Frequências de Dados Agrupados em Intervalos de Classe

Quando os dados são apresentados em uma distribuição de frequências, todos os valores incluídos num certo intervalo de classe são considerados coincidentes com o ponto médio do intervalo. As

fórmulas (5) e (6) da média serão válidas para esses dados agrupados quando se interpretar x como o ponto médio do intervalo e i f como a frequência i

de classe correspondente.

Exemplo. Seja a distribuição em classes de frequência dada na Tabela 5.

Temos que 0 , 55 100 500 . 5  

n f x x i i .

(19)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 19 Classe (limites reais) fi xi xifi 40,0 ─ 45,0 6 42,5 255 45,0 ─ 50,0 16 47,5 760 50,0 ─ 55,0 32 52,5 1.680 55,0 ─ 60,0 24 57,5 1.380 60,0 ─ 65,0 14 62,5 875 65,0 ─ 70,0 6 67,5 405 70,0 ─ 75,0 2 72,5 145 100 5.500

Nota: a média de uma distribuição de frequências às vezes é chamada de valor esperado.

Mediana

A mediana caracteriza o centro de uma distribuição de frequências com base

na ordem dos valores que formam o conjunto de dados. A mediana é o

valor que ocupa a posição central dos dados ordenados. A mediana é o

valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado.

A mediana de um conjunto de n valores ordenados, sendo n ímpar, é definida como o valor de ordem (n+1)/2 desse conjunto. Se n for par, consideraremos a mediana como o valor médio entre os valores de ordem n/2 e (n/2) + 1 do conjunto de dados.

Exemplo. A mediana dos nove valores já ordenados,

12 14 15 19 20 22 26 27 30 é igual a 20. A mediana dos oito valores já ordenados,

12 14 15 19 20 26 27 30 é igual a (19+20)/2 = 19,5.

A mediana (md) de uma distribuição em classes de frequências é dada pela expressão (11) md md a i h f F n L md ( /2) 

(20)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

20 em que L é o limite inferior da classe que contém a mediana, n é o número i de elementos do conjunto de dados, F é a soma das frequências das classes a anteriores à que contém a mediana, fmd é a frequência da classe que contém a mediana e hmd é a amplitude da classe que contém a mediana. A expressão (11) supõe que os valores observados da variável tenham se distribuído homogeneamente dentro das diversas classes.

Exemplo. Considere os dados da Tabela 5, repetidos abaixo na Tabela 6.

Tabela 6 Classe (limites reais) fi 40,0 ─ 45,0 6 45,0 ─ 50,0 16 50,0 ─ 55,0 32 55,0 ─ 60,0 24 60,0 ─ 65,0 14 65,0 ─ 70,0 6 70,0 ─ 75,0 2 100 A mediana é 375 , 54 5 32 22 50 0 , 50      md .

Em certos casos práticos, como aqueles que envolvem distribuições de frequência com valores extremos, é mais conveniente usar a mediana como medida de tendência central, pois a média sofre influência de valores extremos. Neste caso, a mediana fornecerá uma melhor idéia do centro da distribuição de frequências da variável sob análise.

A mediana de uma distribuição em classes de frequências pode ser geometricamente interpretada como o ponto tal que uma vertical por ela traçada divide a área sob o histograma em duas partes iguais.

A mediana e a média são coincidentes quando a distribuição é simétrica. Em distribuições assimétricas, a média tende a deslocar-se para o lado da cauda mais longa (vide figura a seguir).

(21)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 21 Distribuição simétrica 50% 50% média = mediana Distribuição assimétrica 50% 50% mediana média

A mediana divide o conjunto ordenado de dados em dois subconjuntos com igual número de elementos. Há outras maneiras de se dividir os dados

ordenados. Os quartis (Q1, Q2, Q3) dividem o conjunto ordenado de valores

em quatro subconjuntos com igual número de elementos. O primeiro quartil (Q1) ou quartil inferior (Qi) delimita os 25% menores valores; o segundo

quartil é a própria mediana e o terceiro quartil (Q3) ou quartil superior (Qs) é o

valor que separa os 25% maiores valores (veja a próxima figura). Além dos quartis, podemos definir os decis (D1, D2,..., D9), que são os valores que

dividem os dados ordenados em dez partes iguais (note que a mediana corresponde ao quinto decil D5) e os percentis,que são os valores que dividem

os dados ordenados em 100 partes iguais, sendo representados por P1, P2,...,

P99 (a mediana é o percentil P50).

De maneira geral, os quartis, decis e percentis e outros valores obtidos mediante subdivisões dos dados em partes iguais são denominados quantis.

25% 25%

25%

25%

(22)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

22 Os quartis, os decis e os percentis são medidas de posição separatrizes, pois são valores que ocupam determinados lugares do eixo horizontal da distribuição de frequências, abrangendo intervalos iguais de um conjunto de valores coletados e organizados.

Observe que a mediana, além de ser uma medida de posição de tendência central, é também uma medida separatriz.

Moda

A moda é dada pelo valor mais freqüente (ou de máxima frequência).

Sendo assim, a moda para o conjunto de dados da Tabela 2 é 1 e, no caso da Tabela 6, a classe modal é 50,0 ─ 55,0.

Se todas as realizações do conjunto de valores observados ocorrem com a mesma frequência, diz-se que a série estatística é amodal, ou seja, não tem valor modal.

Exemplo. Seja a série estatística {2, 1, 9, 4, 5, 20, 8, 7, 11, 19}. Essa série é

amodal, pois não há repetição de valores (todos ocorrem o mesmo número de vezes).

Pode haver mais de uma moda em um conjunto de valores. Se houver apenas uma moda, a distribuição é dita unimodal. Se houver duas, é bimodal, se possuir três é trimodal e assim sucessivamente.

No caso de distribuições de frequência em classes de mesma amplitude, é comum definir-se a moda (mo) como um ponto pertencente à classe modal, dado por (12) h d d d L mo i 2 1 1    ,

em que L é o limite inferior da classe modal, i d é a diferença entre a 1 frequência da classe modal e a da classe imediatamente anterior, d é a 2 diferença entre a frequência da classe modal e a da classe imediatamente seguinte e h é a amplitude das classes. A fórmula (12) corresponde ao cálculo

da moda pelo Método de Czuber.

Exemplo.Considere os dados da Tabela 6. Então Li 50,0, d1321616, 8 24 32 2   d , h5 e a moda é 333 , 53 5 8 16 16 0 , 50      mo .

(23)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

23 A moda também pode ser calculada pelo Método de King:

h f f f L mo ant post post i,

em que L denota o limite inferior da classe modal, i fpost é a frequência da

classeposteriorà classe modal, fant é a frequência da classe anterior à classe

modal e h é a amplitude da classe modal.

Caso a questão da prova não especifique, deverá ser utilizado o método de Czuber.

A figura a seguir mostra as posições relativas da moda, mediana e média para uma distribuição de frequência (levemente) inclinada para a direita.

Moda

Media

na

Média

Já caiu em prova! (Papiloscopista PF/CESPE-UnB/2004)

Classificação mínimo 1º quartil mediana média 3º quartil máximo variância

A 20 25 27,5 30 32,5 50 49

B 18 23 32 33 42 52 100

A ou B x y z 31 w u v

De acordo com um levantamento estatístico, a média das idades de um grupo de presidiários é igual a 31 anos de idade. Nesse levantamento, os presidiários foram classificados como A ou B, dependendo da sua condição psicossocial. Constatou-se que a média das idades dos presidiários classificados como A é menor que a média das idades dos presidiários classificados como B. A tabela acima apresenta algumas medidas estatísticas obtidas por meio desse levantamento.

(24)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

24

A partir das informações acima, julgue os itens que se seguem.

A moda das idades dos presidiários classificados como A, segundo a fórmula de Czuber, está entre 25,5 e 26 anos de idade.

Resolução

No caso de distribuições de frequência em classes de mesma amplitude, é comum definir-se a moda (mo) como um ponto pertencente à classe modal, dado por h d d d L mo i 2 1 1    ,

em que L é o limite inferior da classe modal, i d é a diferença entre a 1 frequência da classe modal e a da classe imediatamente anterior, d é a 2

diferença entre a frequência da classe modal e a da classe imediatamente seguinte e h é a amplitude das classes.

Observe que os dados do levantamento estatístico não estão agrupados

em intervalos de classe, ou seja, não temos acesso ao histograma

correspondente. Portanto, a fórmula da moda segundo Czuber não pode ser aplicada ao item (o mesmo se aplica para a fórmula da moda segundo King). A conclusão de que “A moda das idades dos presidiários classificados como A, segundo a fórmula de Czuber, está entre 25,5 e 26 anos de idade” é um mero “chute”.

GABARITO: E

O número de presidiários classificados como A é igual ao dobro do número de presidiários classificados como B.

Resolução

Dados: A30, B 33.

Média das médias ( X ):

B A B A n n B n A n X     B A B A n n n n    30 33 31  nA2nB

(25)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

25 em que n e A n denotam o número de presidiários classificados como A e o B

número de presidiários classificados como B, respectivamente.

Logo, é correto afirmar que o número de presidiários classificados como A é igual ao dobro do número de presidiários classificados como B.

GABARITO: C

Já caiu em prova! (Papiloscopista PF/2004/CESPE-UnB) O ser humano tem impressos nos dedos das mãos pelo menos quatro desenhos diferentes. Embora pessoas diferentes tenham sempre digitais diferentes, esses desenhos formam padrões conhecidos como tipos fundamentais de impressões digitais. Há raras exceções a essa regra de classificação. Por isso, essa regra é utilizada para a identificação de uma pessoa. Um perito, observando os dedos indicadores direitos de 200 indivíduos, obteve a seguinte distribuição dos tipos fundamentais, segundo o gênero (homem/mulher).

Tipo fundamental

gênero arco presilha interna presilha externa verticilo total

homem 15 15 35 35 100

mulher 15 10 40 35 100

No estudo desse perito, foram associados valores x, y e z para cada indivíduo, da seguinte maneira: x = 1, caso o tipo fundamental da impressão digital do indivíduo for verticilo e x = 0, caso contrário; y = 1 se o tipo fundamental da impressão digital do indivíduo for arco e y = 0, caso contrário; z = 1 se o indivíduo for mulher e z = 0 se for homem. Como resultado desse procedimento, formam-se três séries estatísticas, respectivamente, X, Y e Z, cada uma com duzentas observações.

A partir dessas informações, julgue os itens a seguir. A mediana de X é superior a 0,8.

Resolução

O total de homens e mulheres com impressão digital verticilo é 70. Logo, sobram 200 – 70 = 130 homens e mulheres que não têm impressão digital verticilo.

O rol da série x possui 130 zeros e 70 uns. Portanto, a mediana é zero (0), menor que 0,8.

(26)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

26 A mediana do produto X × Z é menor que 0,025.

Resolução

Dados:

- x = 1 se o tipo fundamental da impressão digital do indivíduo for verticilo; - x = 0 se o tipo fundamental da impressão digital do indivíduo NÃO for verticilo;

- z = 1 se o indivíduo for mulher; e - z = 0 se o indivíduo for homem.

A série W = X × Z registra as pessoas do gênero feminimo E com impressão digital verticilo. Neste caso, a série W tem 35 “uns” (xz = 1.1 = 1 se uma mulher tem impressão digital verticilo) e 200 – 35 = 165 “zeros” (xz = 0.z = 0 se um homem ou mulher não tem impressão digital verticilo).

Logo, a mediana de W é zero, menor que 0,025. GABARITO: C

Já caiu em prova! (Serpro/CESPE-UnB/2010/Adaptada)

Certa empresa, em determinado mês, realizou levantamento acerca da quantidade diárias de acessos simultâneos ao seu sistema cujo resultado é mostrado na figura acima. A partir das informações apresentadas nessa figura, e considerando que a distribuição da quantidade diárias de acessos simultâneos é representada pela variável X, julgue os itens a seguir.

(27)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

27

Resolução

A moda de X (valor que apresenta a maior frequência) é igual a 3 mil, cuja frequência é 10. A quantidade de 6 mil acessos simultâneos é o valor de menor frequência (= 1). Item errado.

GABARITO: E

O mês em que esse levantamento foi realizado possui mais de 30 dias.

Resolução

quantidade de acessos simultâneos frequência (no de dias)

1.000 5 2.000 6 3.000 10 4.000 6 5.000 3 6.000 1 Total 31

Os dados foram tabulados na tabela acima, a qual indica que o mês em que esse levantamento foi realizado possui 31 dias. Item certo.

GABARITO: C

A quantidade de 2.000 acessos simultâneos diários representa o primeiro quartil da distribuição X. Resolução quantidade de acessos simultâneos frequência (no de dias) frequência relativa frequência acumulada 1.000 5 5/31 = 16,1% 16,1% 2.000 6 6/31 = 19,4% 35,5% 3.000 10 10/31 = 32,3% 67,8% 4.000 6 6/31 = 19,4% 87,2% 5.000 3 3/31 = 9,7% 96,9% 6.000 1 1/31 = 3,1% 100,0% Total 31 31/31 = 100%

Os dados tabulados acima indicam que o primeiro quartil Q1 (valor que

delimita os 25% menores valores) da distribuição de X é a quantidade de 2 mil acessos simultâneos, haja vista o fato de a frequência acumulada para essa quantidade ultrapassar a frequência acumulada de 25%.

(28)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

28 Observe que a frequência acumulada para 2000 acessos é 35,5% e isto NÃO implica que 2000 não seja o primeiro quartil da série.

Resolvamos de outra maneira. O rol de acesso é o seguinte: 1000, 1000, 1000, 1000, 1000 (5 dias) 2000, 2000, 2000, 2000, 2000, 2000(6 dias) 3000, 3000, 3000, 3000, 3000, 3000, 3000, 3000, 3000, 3000 (10 dias) 4000, 4000, 4000, 4000, 4000, 4000 (6 dias) 5000, 5000, 5000 (3 dias) 6000 (1 dia)

Número total de dias = 31. Logo, a Mediana do rol corresponde ao décimo

sexto valor: 3.000.

Temos agora a seguinte sub-série até a Mediana:

1000, 1000, 1000, 1000, 1000, 2000, 2000, 2000, 2000, 2000, 2000, 3000, 3000, 3000, 3000, 3000

Como esta sub-série tem 16 elementos, a sua mediana (= 1o Quartil da série

completa) é o valor médio entre os valores da oitava e da nona posição, ou seja, 2000. Então, Q1 = 2000.

Entendo que a primeira resolução é mais rápida, portanto mais adequada de ser usada em uma situação real de prova.

Note que esta questão cobra DADOS TABULADOS. Quando há muitos dados, como é o caso da questão, é mais rápido resolver usando o raciocínio das frequências acumuladas.

GABARITO: C

É correto classificar a variável X como uma variável quantitativa ordinal.

Resolução

Errado. Tal classificação é aplicável aos atributos ou variáveis qualitativas quando é possível estabelecer uma ordem ou hierarquia entre as respostas obtidas no levantamento estatístico. Por exemplo, o IBGE efetua

(29)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

29 periodicamente o levantamento do grau de instrução dos brasileiros por meio de um censo completo da população. As respostas possíveis para essa pesquisa seriam algo como “sem instrução escolar”, “nível fundamental incompleto”, “nível fundamental completo”, “nível médio incompleto”, “nível médio completo”, “nível superior incompleto” e “nível superior completo. Essas respostas não são números, são variáveis qualitativas. Como é possível estabelecer uma hierarquia entre as possíveis respostas, tem-se uma variável

qualitativa ordinal.

GABARITO: E

A mediana amostral de X é igual a 3.500.

Resolução

Os dados tabulados anteriormente mostram que a mediana da distribuição de X é a quantidade de 3 mil acessos simultâneos, pois a frequência acumulada para essa quantidade ultrapassa a frequência acumulada de 50%. GABARITO: E

6.2 Medidas de Dispersão

Pense na seguinte situação: uma pessoa faz quatro refeições por dia, enquanto que outra não faz nenhuma refeição por dia. Na média, ambas fazem duas refeições por dia. Isto quer dizer que os dois indivíduos estão bem alimentados? A resposta óbvia é não. É para isso que servem as medidas de dispersão, isto é, medidas de como os dados estão agrupados: mais ou menos próximos entre si (mais ou menos dispersos).

As medidas de dispersão indicam o quanto os dados se apresentam dispersos em torno da região central. Desta forma, caracterizam o grau de variabilidade existente nos dados. As seguintes medidas de dispersão nos interessam: a

variância, o desvio padrão, o coeficiente de variação e o desvio interquartílico.

6.2.1 Variância

A variância de um conjunto de valores X {x1,x2,...,xn} pode ser calculada pela

fórmula (13)

   n i i x x x n s 1 2 2 ) ( 1

(30)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

30 em que 2

x

s denota a variância e x representa a média aritmética. Neste curso,

também utilizaremos a notação Var(X) para a variância do conjunto X.

Se os valores distintos x1,x2,...,xk ocorrerem com as frequências f1, f2,..., fk (

  k i i n f 1

), respectivamente, a variância será dada por (*)

(14)

   k i i i x f x x n s 1 2 2 ) ( 1 .

(*) Em (13) e (14), consideramos que os dados se referem a uma população

finita. Caso os dados estejam associados a uma amostra, o fator n (= fi)

que aparece no denominador do lado direito de (13) e (14) deve ser substituído por (n–1). A justificativa para o uso do fator (n–1) foge ao escopo desta aula porque trata-se de um problema de inferência estatística. Contudo,

o erro cometido quando calculamos a variância amostral pela fórmula (13) (ou (14)) é pequeno para “grandes valores” de n (considere n>30). A mesma observação é válida para as medidas de covariância e de

correlação que serão vistas mais adiante.

Considere o conjunto de observações X {x1,x2,...,xn}. A variância tem as

seguintes propriedades:

Seja o novo conjunto Y=cX={cx1, cx2,..., cxn}, em que c é um valor

fixo. Então a variância de Y é igual a c elevado ao quadrado vezes a variância de X: Var(Y) = c2Var(X).

Seja o novo conjunto W=c+X={c+x1, c+x2,..., c+xn}, em que c é um

valor fixo. Então a variância de W=c+X é igual a variância de X (*): Var(W) = Var(X).

(*) A variância de um valor fixo é nula. A fórmula (13) pode ser reescrita na forma

2 2 2 2 2 1 1 1 x x n x n x n s i i i i i i x                     

,

ou seja, como a diferença entre a média aritmética dos quadrados dos

valores e o quadrado da média aritmética dos valores:

 Variância = Média dos Quadrados – Quadrado da Média.

(31)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 31 2 1 2 1 2 2 1 1 1 ) ( 1 1 x n n x n x x n s n i i n i i x             

  ou 2 1 2 2 1 1 1 x n n x f n s n i i i x          

caso os valores distintos x1,x2,...,xk ocorram com as frequências f1,f2,...,fk (

  k i i n f 1 ).

 Variância Amostral = Soma dos Quadrados/(n–1) – Quadrado da Média corrigido pelo fator n/(n–1)

EXEMPLO. Julgue o item a seguir.

Considere o conjunto de dados {2, 5, 8, 11, 14}. Então a variância desse conjunto é menor que 20.

Resolução A média do conjunto é 8 5 14 11 8 5 2    x e a variância 18 5 ) 8 14 ( ) 8 11 ( ) 8 8 ( ) 8 5 ( ) 8 2 ( ) ( 2 2 2 2 2 2 2 

            n x x sx iItem certo.

Também podemos usar a fórmula "maceteada" da variância:

Variância = Média dos Quadrados – Quadrado da Média = 1 2 2

x x n i i      

Sequência de cálculos: 1) Média dos quadrados:

(32)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 32 82 5 410 5 14 11 8 5 2 1

2  2  2 2  2 2   i i x n . 2) Quadrado da média: 64 8 1 2 2 2         

x x n i i . Então, 3) s2x 826418 (mesmo resultado!). GABARITO: C

Exemplo (ATRFB/ESAF/2012) A variância da amostra formada pelos valores 2, 3, 1, 4, 5 e 3 é igual a A) 3 B) 2 C) 1 D) 4 E) 5 Resolução

A questão pede que você calcule a variância de uma amostra (ou variância amostral). Então a fórmula a ser utilizada é a versão corrigida de (14), em que o denominador do lado direito da igualdade é (n–1):

    k i i i x f x x n s 1 2 2 ) ( 1 1 Cálculo da média: valor (x) frequência (fi) xi.fi xi2.fi 1 1 1x1 = 1 12x1 = 1 2 1 2x1 = 2 22x1 = 4 3 2 3x2 = 6 32x2 = 18 4 1 4x1 = 4 42x1 = 16 5 1 5x1 = 5 52x1 = 25 fi = n = 6 xi.fi = 18 xi2.fi = 64

(33)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 33 3 6 18 6 ) 1 5 ( ) 1 4 ( ) 2 3 ( ) 1 2 ( ) 1 1 ( 1 1             

k i i if x n x

Cálculo da variância amostral:

5 ] ) 3 5 ( 1 [ ] ) 3 4 ( 1 [ ] ) 3 3 ( 2 [ ] ) 3 2 ( 1 [ ] ) 3 1 ( 1 [ ) ( 1 1 2 2 2 2 2 1 2 2                  

k i i i x f x x n s 2 5 4 1 0 1 4 2       x s  opção B

A variância amostral também pode ser calculada pela fórmula,

 Variância Amostral = Soma dos Quadrados/(n–1) – Quadrado da Média corrigido pelo fator n/(n–1)

2 5 10 5 54 64 5 9 6 5 64 1 1 1 2 1 2 2                 

x n n x f n s n i i i x GABARITO: B Variância Combinada

Considere o conjunto de dados A com NA elementos, média A e variância s e 2A

o conjunto B com NB elementos, média B e variância s . Pode-se demonstrar B2

que a variância da população conjunta A+B, também denominada

variância combinada ou global, é dada por

2 2 2 2             

 

B A B A B A B A N N B A N N B N N A s . Fazendo N = NA + NB, obtemos 2 2 2 2          

N B A N B N A sA B .

(34)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

34

Exemplo (REFAP/Cesgranrio/2007). O setor de recursos humanos de uma

empresa tem o hábito de divulgar separadamente a média e a variância das notas das avaliações dos funcionários do sexo feminino e do masculino. Na última avaliação, os resultados obtidos foram:

Feminino Masculino

Número de funcionários 20 30

Média 6 7

Variância 3,4 4

A média e a variância das notas dos funcionários dessa empresa, respectivamente, valem: A) 6,5 e 3,7 B) 6,6 e 3,4 C) 6,6 e 4,0 D) 7,5 e 3,7 E) 13,0 e 7,5 Resolução

Dados: NA = 20, A 6 e sA2 3,4 (conjunto feminino); NB = 30, B 7 e sB2 4,0

(conjunto masculino).

A média global ou média das médias é dada pela média ponderada das médias dos conjuntos:

. 6 , 6 30 20 7 30 6 20          B A B A B A N N B N A N X

O resultado acima já nos permite eliminar as opções A, D e E. Restaram as alternativas B e C.

A variância combinada é dada por

2 2 2 2          

N B A N B N A sA B .

Calcularemos a variância combinada se soubermos os valores das somatórias

A (soma de A),

B (soma de B),

A (soma dos quadrados de A) e 2

B 2

(35)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 35 A média do conjunto A é 6  6 120 20  

A A (soma de A = 120). A média do conjunto B é 7  7 210 30  

B B (soma de B = 210). A variância de A é 3,4. Então, 4 , 39 20 4 , 3 6 20 4 , 3 20 4 , 3 2 2 2 2 2 2 2 2                 

A A

A

A N A N A s A A A 788 4 , 39 20 2   

A (soma dos quadrados de A = 788).

A variância de B é 4,0. Logo, 0 , 53 30 0 , 4 7 30 0 , 4 30 0 , 4 2 2 2 2 2 2 2 2                 

B B

B

B N B N B s B B B 590 . 1 53 30 2   

B (soma dos quadrados de B = 1.590).

Finalmente, temos que

2 2 2 2 2 2 2 6 , 6 56 , 47 50 330 50 378 . 2 50 210 120 50 590 . 1 50 788                              

N B A N B N A sA B 0 , 4 56 , 43 56 , 47 2    B A s  variância combinada = 4,0. GABARITO: C

Nota: se as médias dos conjuntos A e B forem iguais, ou seja, se AB, a

variância combinada pode ser calculada por meio da fórmula simplificada

N s N s N N N s N s N s A A B B B A B B A A B A 2 2 2 2 2      ,

em que N = NA + NB. Repare que trata-se de uma média ponderada das

variâncias individuais.

Atenção: a fórmula acima é um caso particular da fórmula anterior da variância combinada. Você só poderá aplicá-la quando as médias dos conjuntos A e B forem iguais!

Exemplo. Sejam os conjuntos de números {2, 5, 8, 11, 14} e {2, 8, 14},

(36)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 36 A) 8 B) 20,25 C) 18 D) 24 E) 22 Resolução

Temos a série estatística A = {2, 5, 8, 11, 14} com média

8 5 40 5 14 11 8 5 2        A

e a série B = {2, 8, 14} com média

8 3 24 3 14 8 2  B .

Como as médias são iguais, podemos aplicar a fórmula simplificada

N s N s N s A A B B B A 2 2 2    . Variância do 1º conjunto: . 18 5 ) 8 14 ( ) 8 11 ( ) 8 8 ( ) 8 5 ( ) 8 2 ( ) ( 2 2 2 2 2 2 2 

            A A N A A s Variância do 2º conjunto: 24. 3 ) 8 14 ( ) 8 8 ( ) 8 2 ( ) ( 2 2 2 2 2 

        B B N B B s Variância combinada: 20,25. 3 5 24 3 18 5 2       B A s GABARITO: B

Variância de Dados Agrupados em Intervalos de Classe

Como já visto, quando os dados são apresentados em uma distribuição de frequências, todos os valores incluídos num certo intervalo de classe são considerados coincidentes com o ponto médio do intervalo. As fórmulas (13) e (14)

(37)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 37

      n i i n i i x x x n x x n s 1 2 2 1 2 2 1 ) ( 1

         k i i i k i i i k i i i x x f x x p x n x x f n s 1 2 2 1 2 2 1 2 2 1 ) ( 1

serão válidas para esses dados agrupados quando se interpretar x como o i

ponto médio e f (i f n k i i

1 , 1 1 

k i i

p ) como a frequência de classe

correspondente.

Exemplo. Seja a distribuição em classes de frequência dada na Tabela 5.

Temos que

Tabela 7: cálculo da variância.

Classe (limites reais) f i x i xifi xi fi 2 40,0 ─ 45,0 6 42,5 255,0 10.837,5 45,0 ─ 50,0 16 47,5 760,0 36.100,0 50,0 ─ 55,0 32 52,5 1.680,0 88.200,0 55,0 ─ 60,0 24 57,5 1.380,0 79.350,0 60,0 ─ 65,0 14 62,5 875,0 54.687,5 65,0 ─ 70,0 6 67,5 405,0 27.337,5 70,0 ─ 75,0 2 72,5 145,0 10.512,5 Total n = 100 5.500 307.025,0 Vimos que, 0 , 55 100 500 . 5  

n f x x i i . Logo, Variância  55 3.070,25 3.025,0 45,25 100 025 . 307 1 2 1 2 2 2 

       k i i i x x f x n s

(38)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

38

Já caiu em prova! (Papiloscopista PF/CESPE-UnB/2004)

Classificação mínimo 1º quartil mediana média 3º quartil máximo variância

A 20 25 27,5 30 32,5 50 49

B 18 23 32 33 42 52 100

A ou B x y z 31 w u v

De acordo com um levantamento estatístico, a média das idades de um grupo de presidiários é igual a 31 anos de idade. Nesse levantamento, os presidiários foram classificados como A ou B, dependendo da sua condição psicossocial. Constatou-se que a média das idades dos presidiários classificados como A é menor que a média das idades dos presidiários classificados como B. A tabela acima apresenta algumas medidas estatísticas obtidas por meio desse levantamento.

A partir das informações acima, julgue os itens que se seguem.

O valor de v está entre 65 e 75.

Resolução

A variância combinada v é dada por

2 2 2 2                

B A B A B A B A n n B A n n B n n A S v 30  A

30 A n A

A30nA 60nB

Nota: a solução do item da pág. 24 mostra que nA 2nB. É por isso que

B A n n 60 30  . 33  B

33 B n B

B 33nB 49 2  A S  2 49 2  

A n A A  49 302 949 2   

A n A

A2 949nA 1898nB

(39)

www.pontodosconcursos.com.br | Prof. Alexandre Lima 39 100 2  B S  2 100 2  

B n B B  100 332 1189 2   

B n B

B2 1189nB 68 961 1029 31 33 , 396 67 , 632 3 33 60 3 1189 3 1898 2 2 2                  B B B B B B B B A n n n n n n n S v

Então é certo afirmar que 65 < v = 68 < 75. GABARITO: C

Valores de x e u são, respectivamente, iguais a 19 e 51 anos de idade.

Resolução

O levantamento estatístico não deixa dúvida de que o valor mínimo de A ou B é x = 18 e o valor máximo de A ou B é u = 52. Item errado.

GABARITO: E

6.2.2 Desvio Padrão

O desvio padrão mede a dispersão absoluta de um conjunto de dados. É dado pela raiz quadrada positiva da variância:

(15) 2

x

x s

s  .

O desvio padrão está na mesma unidade da variável e indica, em média, qual será o “erro” (desvio) cometido ao tentar substituir cada observação pela média do conjunto de dados.

Neste curso, também utilizaremos a notação DP(X) para o desvio padrão do conjunto X.

Exemplo. Determine o desvio padrão do conjunto 2, 5, 8, 11, 14.

Vimos que esse conjunto possui variância igual a 18. Logo, sx  184,24.

Considere o conjunto de valores X {x1,x2,...,xn}. O desvio padrão tem as

seguintes propriedades:

Seja o conjunto Y=cX={cx1, cx2,..., cxn}, em que c é um valor fixo.

Então o desvio padrão de Y é igual a c vezes o desvio padrão de X: DP(Y) = c.DP(X).

(40)

www.pontodosconcursos.com.br | Prof. Alexandre Lima

40

Seja o novo conjunto W=c+X={c+x1, c+x2,..., c+xn}, em que c é um

valor fixo. Então o desvio padrão de W = c+X é igual ao desvio padrão de X: DP(W) = DP(X)

6.2.3 Coeficiente de Variação

O coeficiente de variação é definido como o quociente entre o desvio padrão e a média, sendo frequentemente expresso em porcentagem (*):

(16) x s x cvx ) ( .

O coeficiente de variação mede a dispersão relativa dos dados. Utiliza-se o coeficiente de variação na comparação do grau de concentração em torno da média para duas ou mais séries distintas.

(*) Logo, podemos dizer que o coeficiente de variação é um adimensional.

Exemplo. Determine o coeficiente de variação do conjunto 2, 5, 8, 11, 14.

O conjunto tem média 8 e desvio padrão 4,24. Portanto, 0,53 53% 8 24 , 4 ) (x    cv . 6.2.4 Desvio Interquartílico

O desvio interquartílico (ou amplitude interquartil) é definido como (17) dQQ3Q1,

em que dQ denota o desvio interquartílico, Q3 é o terceiro quartil (ou quartil superior) e Q é o primeiro quartil (ou quartil inferior). 1

A amplitude interquartil pode ser usada como uma medida de dispersão. Em distribuições mais dispersas, os valores dos quartis ficam mais distantes. Em distribuições simétricas, a distância entre o quartil inferior e a mediana é igual à distância entre a mediana e o quartil superior, enquanto que em distribuições assimétricas essas distâncias são diferentes.

Exemplo. O primeiro e o terceiro quartis da distribuição das alturas dos

estudantes da Universidade de São Paulo são 165,56 cm e 178,59 cm, respectivamente. Calcule o desvio interquartílico dessa distribuição.

03 , 13 56 , 165 59 , 178 1 3    Q Q dQ cm.

Referências

Documentos relacionados

Após analisar a evolução do uso e cobertura da terra na região estudada após a decadência da atividade cafeeira, objetivou-se examinar o reflexo do abandono do cultivo

Apesar dos esforços para reduzir os níveis de emissão de poluentes ao longo das últimas décadas na região da cidade de Cubatão, as concentrações dos poluentes

Nesse contexto, o presente estudo foi realizado com o intuito de avaliar o crescimento e o desempenho econômico de plantios de Eucalyptus dunnii em diferentes sítios no

No final, os EUA viram a maioria das questões que tinham de ser resolvidas no sentido da criação de um tribunal que lhe fosse aceitável serem estabelecidas em sentido oposto, pelo

Para analisar as Componentes de Gestão foram utilizadas questões referentes à forma como o visitante considera as condições da ilha no momento da realização do

Cinco espécies de vespas, Polybia paulista von Ihering, 1896, Polybia sericea (Olivier, 1705), Polybia ignobilis (Haliday, 1836), Polistes canadensis (Linnaeus, 1758) e Polistes

Por fim, na terceira parte, o artigo se propõe a apresentar uma perspectiva para o ensino de agroecologia, com aporte no marco teórico e epistemológico da abordagem

Na experiência em análise, os professores não tiveram formação para tal mudança e foram experimentando e construindo, a seu modo, uma escola de tempo