• Nenhum resultado encontrado

Apostila Probabilidade Estatistica Aluno

N/A
N/A
Protected

Academic year: 2021

Share "Apostila Probabilidade Estatistica Aluno"

Copied!
152
0
0

Texto

(1)

APOSTILA DA DISCIPLINA DE

PROBABILIDADE E ESTATÍSTICA

Aluno(a):______________________________________ Curso: ________________________________________ Turma:________________________________________ 2° Semestre/2012

(2)

1

I – CONCEITOS INICIAIS

1.1- INTRODUÇÃO

A Estatística é a parte da matemática aplicada que apresenta processos próprios para coletar, apresentar e interpretar adequadamente conjuntos de dados, sejam eles numéricos ou não. Podemos dizer que seu objetivo é o de apresentar informações sobre dados em análise para que tenhamos maior compreensão dos fatos que os mesmos representam.

As aplicações da estatística estão presentes em todos os campos de estudo: na medicina (por exemplo, no controle de doenças que antecipam epidemias), na biologia (por exemplo, no caso de espécies ameaçadas de extinção, onde são criados regulamentos e leis para a proteção das mesmas a partir das estimativas estatísticas de modificação de tamanho destas populações), nas ciências sociais (para o planejamento de ações que busquem o equilíbrio social), na física, na administração, na economia, na política, e em muitas outras áreas do conhecimento.

Na engenharia, um dos maiores usos está no controle de processos, produtos e serviços. Podemos observar isso, por exemplo, nas técnicas de controle de qualidade. Com base nas análises estatísticas temos melhores justificativas para propor medidas de controle como as que regem a poluição ambiental, as inspeções de automóveis, a utilização de equipamentos de proteção individual, etc. A estatística pode ser aplicada na produção para acompanhar a estabilidade dos processos, por meio das cartas de acompanhamento (cartas de controle estatístico de processo). Também utilizamos a estatística para analisar ensaios destrutivos e não destrutivos, onde pode ser verificada a porcentagem de peças não conformes ou probabilidade de vida útil de equipamentos ou peças. Utilizamos a estatística em calibração de equipamentos de medição e na verificação da condição de uso desses meios de medição e em muitas outras aplicações.

As informações estatísticas são concisas, específicas e eficazes, fornecendo assim subsídios imprescindíveis para as tomadas racionais de decisão. Neste sentido, a Estatística fornece ferramentas importantes para que as empresas e instituições possam definir melhor suas metas, avaliar seu desempenho, identificar seus pontos fracos e atuar na melhoria contínua de seus produtos e serviços.

A estatística descritiva, cujo objetivo básico é o de sintetizar uma série de valores de mesma natureza, permitindo dessa forma que se tenha uma visão global da variação desses valores, organiza e descreve os dados de três maneiras: por meio de tabelas, de gráficos e de medidas descritivas, que serão vistos neste e nos próximos módulos.

(3)

2

1.2- O MÉTODO, A COLETA DE DADOS EM ENGENHARIA E OS CONCEITOS FUNDAMENTAIS

Primeiramente vamos tratar do método de engenharia, que é a abordagem para formular e resolver problemas. Segundo Montgomery (2009), as etapas do método de engenharia são dadas por:

I – Desenvolver uma descrição clara e concisa do problema;

II – Identificar os fatores importantes que afetam esse problema ou que possam desempenhar um papel em sua solução;

III – Propor um modelo para o problema, usando o conhecimento científico ou de engenharia do fenômeno estudado. Estabelecer qualquer limitação ou suposição do problema;

IV – Conduzir experimentos apropriados e coletar dados para testar ou validar o modelo-tentativa ou conclusões feitas nas etapas II e III;

V – Refinar o modelo com base nos dados observados;

VI – Tratar do modelo (manipular) de modo a ajudar no desenvolvimento da solução do problema;

VII – Conduzir um experimento apropriado para confirmar que a solução proposta para o problema é efetiva e eficiente;

VIII – Tirar conclusões ou fazer recomendações baseadas na solução do problema.

Analisando estas etapas podemos ver o quanto o engenheiro tem de saber como planejar eficientemente os experimentos, coletar dados, analisar e interpretar os mesmos, entendendo como os dados observados estão relacionados com o modelo que foi proposto para o problema em estudo.

Os métodos estatísticos são usados para nos ajudar a entender a variabilidade. Vamos conhecer agora conceitos importantes para nossos estudos, com aplicações em engenharia:

Variabilidade: é quando sucessivas observações de um sistema ou fenômeno

não produzem exatamente o mesmo resultado. Por exemplo, considere o desempenho do consumo de gasolina em seu carro. Em cada tanque de combustível o desempenho pode variar consideravelmente, dependendo de muitos fatores como o tipo de estrada, as condições do veículo, a marca da gasolina, as condições climáticas, etc. Esses fatores representam as fontes potenciais de variabilidade.

(4)

3 O raciocínio (inferência estatística) do engenheiro para analisar os fatores é de uma amostra para uma população.

População: é todo conjunto de elementos, finito ou infinito, que tem pelo menos

uma característica em comum.

Amostra: é uma parte da população adequadamente selecionada de acordo

com uma regra ou um plano. Este subconjunto deve ter dimensão menor que o da população e seus elementos devem ser representativos da população.

Em se tratando de conjuntos-subconjuntos, estes podem ser finitos quando possuem um número limitado de elementos e infinitos quando possuem um número ilimitado de elementos.

Um Parâmetro é a medida numérica que descreve uma característica da população.

Uma Estatística é uma é a medida numérica que descreve uma característica da amostra.

Vamos observar o esquema abaixo que apresenta alguns parâmetros como a média, a variância, o desvio padrão, a proporção, que veremos detalhadamente ao longo do nosso curso.

1.3- PLANEJAMENTO DE UM ESTUDO ESTATÍSTICO

Após a definição do problema a ser estudado e o estabelecimento do planejamento da pesquisa, que inclui a forma pela qual os dados serão coletados, o cronograma das atividades, o levantamento dos custos envolvidos, o exame das informações disponíveis, o delineamento da amostra, etc., o passo seguinte é a coleta de dados, que consiste na busca ou aplicação dos dados das variáveis, componentes do fenômeno a ser estudado.

A coleta de dados chamada de direta quando os dados são obtidos na fonte originária. Os valores assim compilados são chamados de dados primários, como, por exemplo, dados obtidos em pesquisas de opinião pública, vendas registradas em notas fiscais da empresa, medição de chuva em pluviômetros, contagem do número de carros que passa por dia em um cruzamento, etc.

(5)

4 A coleta de dados é dita indireta quando os dados obtidos provêm de coleta direta. Os valores assim compilados são denominados de dados secundários, como, por exemplo, o cálculo do tempo de vida média de um produto, obtido por pesquisa, em tabelas publicadas.

Quanto ao tempo, a coleta pode ser classificada em:

Contínua: quando é realizada permanentemente, sem interrupção, automaticamente e na vigência de um determinado período, por exemplo, consumo de energia elétrica em uma residência, medida mensalmente;

Periódica: quando é feita em intervalos de tempo curtos determinados, por exemplo, o censo industrial e o controle de tráfego em feriados;

Ocasional: quando é efetuada sem época preestabelecida, atendendo a uma conjuntura qualquer ou a uma emergência, por exemplo, dados de desastres naturais.

Os métodos possíveis de coleta de dados em um estudo estatístico são:

Censo: é uma avaliação direta de um parâmetro, utilizando-se dados relativos a todos os elementos da população. É 100% confiável, porém caro, lento, às vezes desatualizado (dependendo do tempo gasto para realização) e nem sempre viável.

Estimação: é uma avaliação indireta de um parâmetro populacional com base em um estimador. Tem menos de 100% de confiabilidade, porém barato, rápido e atualizado.

Simulação: é o uso de um modelo físico ou matemático para reproduzir as condições de uma determinada situação, por exemplo, teste para eficiência de airbags em automóveis.

Experimentação: quando é aplicado um tratamento a uma parte da população e são verificadas as respostas, por exemplo, uso de medicamentos.

Estudo observacional: são observadas e medidas características específicas, mas os objetos do estudo não são modificados, por exemplo, uma pesquisa de satisfação de clientes

Na coleta de dados a amostra deve ser representativa da população. Devemos usar técnicas de amostragem apropriadas para que se garanta que as inferências sobre a população sejam válidas. As regras de amostragem podem ser classificadas em duas categorias gerais:

Probabilísticas: são amostragens em que a seleção é aleatória onde cada elemento tenha uma chance conhecida, mas não necessariamente igual, de ser selecionado para a amostra.

Em uma amostra aleatória, membros de uma população são selecionados de tal modo que cada membro individual tem chance igual de ser selecionado.

(6)

5 Uma amostra aleatória simples de tamanho n é selecionada de tal modo que toda a amostra possível de mesmo tamanho n tenha a mesma chance de ser escolhida.

Não-probabilísticas ou intencionadas: são amostragens em que há uma escolha deliberada dos elementos da amostra.

A revisão crítica dos dados tem a finalidade de descartar os valores estranhos ao levantamento, os quais são capazes de provocar futuros enganos. É importante sempre identificarmos todos os possíveis erros.

A apresentação dos dados é o próximo passo, que pode ser feita por meio das tabelas e dos gráficos. A tabela é um quadro que resume um conjunto de observações, enquanto os gráficos são formas de apresentação dos dados, cujo objetivo é o de produzir uma impressão mais rápida e viva do fenômeno em estudo.

Para ressaltar as tendências características observadas nas tabelas, isoladamente, ou em comparação com outras, é necessário expressar tais tendências através de números ou medidas descritivas. As medidas descritivas são conhecidas como medidas de posição, medidas de dispersão, de assimetria e de curtose, e veremos todas essas detalhadamente nos próximos módulos.

A análise dos dados permite a emissão da conclusão final do estudo. A Estatística Descritiva pode assim ser resumida no diagrama a seguir:

1.4. VARIÁVEIS

Após a determinação dos elementos nos perguntamos: o que fazer com estes? Podemos medi-los, observá-los, contá-los surgindo um conjunto de respostas que receberá a denominação de variável.

Variável: é a característica que vai ser observada, medida ou contada nos

elementos da população ou da amostra e que pode variar, ou seja, assumir um valor diferente de elemento para elemento. Dividem-se em:

I) Variável Qualitativa (ou dados categóricos): podem ser separados em

diferentes categorias, atributos, que se distinguem por alguma característica não numérica. Divide-se em:

COLETA DOS DADOS CRÍTICA DOS DASDOS APRESENTAÇ ÃO DOS DADOS TABELAS ANÁLISE GRÁFICOS ANÁLISE

(7)

6

 Variável Qualitativa Nominal: é uma variável que assume como possíveis valores, atributos ou qualidades e estes não apresentam uma ordem natural de ocorrência. Exemplo: meios de informação: televisão, revista, internet, jornal.

 Variável Qualitativa Ordinal: é uma variável que assume como possíveis valores atributos ou qualidades e estes apresentam uma ordem natural de ocorrência. Por exemplo: estado civil (solteiro, casado, separado, divorciado).

II) Variável Quantitativa: consistem em números que representam contagens

ou medidas. Divide-se em:

 Variáveis Quantitativas Discretas: resultam de um conjunto finito, enumerável de valores possíveis. Por exemplo: número de filhos, número de provas, número de acidentes do trabalho, etc.

 Variáveis Quantitativas Contínuas: resultam de números infinitos de valores possíveis que podem ser associados a pontos em uma escala contínua, e em geral, resultantes de mensurações. Por exemplo: temperatura, altura, peso, comprimento de uma estrada, etc.

Resumidamente, quanto ao nível de mensuração temos as variáveis:

Exemplo 1.1:

Classificar as variáveis abaixo segundo o nível de mensuração: a) Cor de sinalização de segurança:

b) Número de peças defeituosas: c) Área de uma construção: d) Profissão:

Variáveis

QUALITATIVAS: SUAS REALIZAÇÕESSÃO ATRIBUTOS DOS ELEMENTOS PESQUISADOS NOMINAIS: APENAS IDENTIFICA AS CATEGORIAS ORDINAIS: É POSSÍVEL ORDENAR AS CATEGORIAS QUANTITATIVAS (INTERVALARES): SUAS REALIZAÇÕES SÃO NÚMEROS RESULTANTES DE CONTAGEM OU MENSURAÇÃO DISCRETAS: PODEM ASSUMIR APENAS ALGUNS VALORES CONTÍNUAS: PODEM ASSUMIR INFINITOS VALORES

(8)

7 e) Número de empregados de uma fábrica:

f) Tipo sanguíneo: g) Sexo:

h) Valor obtido na face superior de um dado: i) Salário dos Empregados de uma empresa: j) Resultado da extração da loteria Federal: k) Comprimento de um seguimento de reta: l) Área de um Círculo:

m) Raça:

n) Volume de água contido numa piscina: o) Letras do alfabeto:

1.5. SÉRIES ESTATÍSTICAS

É importante organizar os dados de maneira prática e racional, para o melhor entendimento do fenômeno que se está estudando. A Estatística Descritiva pode extrair e apresentar a informação contida nos dados coletados e apresentá-los de três formas (tabelas, gráficos e medidas descritivas), que possibilitam uma rápida visão geral do fenômeno estudado. Neste módulo veremos as tabelas representadas pelas séries estatísticas.

As tabelas podem ser consideradas quadros em que estão resumidos um conjunto de dados organizados e dispostos sistematicamente em linhas e colunas.

Assim como existem algumas regras e normas que devem ser observadas quando vamos elaborar um texto científico ou acadêmico, para organizar os dados em séries estatísticas ou em distribuição de frequências, existem algumas normas nacionais definidas pela Associação Brasileira de Normas Técnicas (ABNT) que devem ser respeitadas. Dessa forma, toda tabela estatística deve conter elementos essenciais e elementos complementares, quando necessário.

Temos como elementos essenciais:

 Título: no título é indicada a natureza do fato estudado, ou seja, o que foi estudado. Também deve conter as variáveis escolhidas na análise do fato, o local e a época em que os dados foram obtidos.

(9)

8

 Corpo: é formado pelo conjunto de linhas e colunas, em que podemos observar as séries horizontais e verticais de informações.

 Cabeçalho: no início de cada coluna devemos designar a natureza do conteúdo de que a coluna trata.

 Coluna indicadora: nessa coluna devemos evidenciar a natureza do conteúdo de cada linha.

Temos como elementos complementares:

 Fonte: onde se indica a entidade responsável pela sua organização ou que forneceu dos dados primários. Deve ficar no rodapé da tabela.

 Notas: quando é necessário algum outro esclarecimento além dos essenciais, eles devem ser colocados em forma de notas no rodapé da tabela.

 Chamadas: são colocadas também no rodapé da tabela e são necessárias para esclarecer pormenores ou detalhes em relação às células, colunas ou linhas.

Obs: Nenhuma célula deve ficar em branco, deve sempre apresentar um número ou sinal. O lado direito e esquerdo das tabelas devem sempre ser abertos (sem bordas).

Agora vamos a definição de série estatística:

Série Estatística é qualquer coleção de dados colocada numa tabela e

classificada segundo as variações do fenômeno observado.

As séries estatísticas podem ser divididas em série de dados não agrupados e série de dados agrupados, como segue:

I) Série de dados não agrupados

Podem estar relacionadas a época de ocorrência, a localização, ou a um fator específico relacionado ao problema estudado, ou ainda fazer referência a mais de um destes fatores. São elas:

a) Série Cronológica, Temporal, Evolutiva ou Histórica: é a série estatística em que os dados são observados segundo a época de ocorrência.

Exemplo 1.2:

Tabela 1.1 Taxa de domicílios particulares permanentes com acesso à internet, no Brasil, de 2005 a 2009

Período Domicílios particulares permanentes com acesso à internet

2005 13,7

2006 16,7

2007 20

2008 23,8

2009 27,4

(10)

9 b) Série Geográfica ou de Localização: é a série estatística em que os dados são observados segundo a localidade de ocorrência.

Exemplo 1.3:

Tabela 1.2. Chuva observada no Ceará relativa ao mês de maio de 2000 Região Precipitação (mm)

Litoral Norte 70,8 Litoral do Pecém 96,9 Litoral de Fortaleza 148,1

Maciço de Baturité 148,0 Sertão Central e Inhamuns 43,5

Fonte: www.funceme.br

c) Série Específica: é a série estatística em que os dados são agrupados segundo a modalidade (espécie) de ocorrência.

Exemplo 1.4:

Tabela 1.3. Indicadores Conjunturais da Indústria, Índice Mês/Mês Anterior com ajustamento sazonal - Brasil - Outubro- 2011

Variáveis Índice Mês/Mês Anterior (1)

Ind. Geral Ind. Extrativa Ind. Transformação Pessoal Ocupado Assalariado (2) 99,56 100,68 99,52 Número de Horas Pagas 99,08 99,64 99,06 Folha de Pagamento Real 97,84 86,26 98,97 Fonte: IBGE, Diretoria de Pesquisas, Coordenação de Indústria.

(1) Base: Mês imediatamente anterior = 100.

(2) Variável sem movimento sazonal significativo e, portanto, sem ajuste sazonal, nas indústrias extrativas.

d) Série Mista: é a série estatística em que os dados são agrupados com a variação do fenômeno em função de mais de uma das séries anteriores.

Exemplo 1.5:

Tabela 1.4 Incidência de acidentes de trabalho (número de acidentes típicos e de trajeto, por 1000 trabalhadores segurados no Brasil em 1997, 1998 e 2000

Incidência de acidentes de trabalho (n o de acidentes

típicos e de trajeto, por 1000 trabalhadores segurados 1997 1998 2000 Brasil 21,9 23,1 20,4 Região Norte 11,9 14,1 13,2 Região Nordeste 11,4 11 9,2 Região Sudeste 23,7 25,8 22,9 Região Sul 30,1 27,9 24,9 Região Centro-Oeste 13,1 15,1 13,4 Fonte: Ministério da Saúde, Secretaria de Políticas de Saúde (SPS).

(11)

10

II) Série de dados agrupados:

Dependendo do volume de dados, torna-se difícil ou impraticável tirar conclusões a respeito do comportamento das variáveis e, em particular, de variáveis quantitativas. Uma das maneiras de sumarizar os valores de uma variável discreta ou contínua é a montagem de uma distribuição de frequência.

Por definição, uma distribuição de frequência (ou tabela de frequência) lista os valores dos dados, juntamente com suas frequências correspondentes (ou contagens).

- Distribuição de Frequência por Intervalos: série estatística na qual a variável observada está dividida em subintervalos do intervalo total, neste caso temos uma variável contínua;

- Distribuição de Frequência por Pontos: série estatística na qual as frequências observadas estão associadas a um ponto real observado, neste caso temos uma variável discreta.

Para iniciar, podemos colocar os dados brutos de cada uma das variáveis quantitativas em uma ordem crescente ou decrescente, o que denominaremos de rol. A visualização de algum padrão ou comportamento pode continuar sendo de difícil observação ou até mesmo cansativa, mas conseguimos de forma rápida identificar maiores e menores valores ou concentrações de valores no caso de variáveis quantitativas.

Estes números (menor e maior valor observado) servem de ponto de partida para a construção de tabelas para estas variáveis. A seguir, estão alguns conceitos, aliados a procedimentos comuns para a representação das distribuições de frequências, onde:

 Dados brutos

É o conjunto dos dados numéricos obtidos após a crítica dos valores coletados. Exemplo 1.6:

24 – 23 – 22 – 28 – 35 – 21 – 23 – 33 – 34 – 24 – 21 – 25 – 36 – 26 – 22 30 – 32 – 25 – 26 – 33 – 34 – 21 – 31 – 25 – 31 – 26 – 25 – 35 – 33 – 31  Rol

É o arranjo dos dados brutos em ordem de frequências crescente ou decrescente. No exemplo 6 colocamos os dados brutos do exemplo 5 em rol (de forma crescente).

Exemplo 1.7:

21 – 21 – 21 – 22 – 22 – 23 – 23 – 24 – 24 – 25 – 25 – 25 – 26 – 26 – 26 28 – 30 – 31 – 31 – 31 – 32 – 33 – 33 – 33 – 34 – 34 – 34 – 35 – 35 – 36  Amplitude total (AT)

É a diferença entre o maior e o menor valor observados. No exemplo 6 temos: AT = xmax – xmin

(12)

11 AT = 36 – 21 = 15.

 Número de classes (k)

De modo a interpretar melhor o que esses números exprimem, devemos criar intervalos (classes), preferencialmente, igualmente espaçados. O número deles depende do número de observações (n) e o quão dispersos os dados estão. Não há uma fórmula exata para o cálculo do número de classes. Apresentamos a seguir, duas soluções.

 O número de classes (k) será k = 5 para n ≤ 25 e k= √n , para n > 25.

 Fórmula de Sturges: k ≈ 1 + 3,3 log n, em que n = tamanho da amostra. Exemplo 1.8:

Para um total de 30 dados, n = 30, temos que:

k = √30 = 5,48 ou k ≈ 1 + 3,3 log 30 ≈ 5,87 .

Geralmente utilizamos k como um número inteiro, neste caso adotamos k = 5.  Amplitude das classes (h)

A especificação da largura do intervalo é uma consideração importante. Intervalos muito grandes resultam em um número menor de classes de intervalo. A amplitude das classes é dada pela relação:

Assim como no caso do número de classes (K), a amplitude das classes (h) deve ser aproximada para o maior inteiro.

A amplitude das classes (h) deve estar entre os números 1, 2, 3, 5, 7, 10 e os múltiplos de 5.

A amplitude das classes (h) é a diferença entre dois limites inferiores ou superiores de classe consecutivos.

 Limites das classes

Limites inferiores de classe (Li) são os menores números que podem

pertencer às diferentes classes.

Limites superiores de classe (Ls) são os maiores números que podem

pertencer às diferentes classes.

Existem diversas maneiras de expressar os limites das classes. Apresentamos a seguir algumas:

 21  26: compreende todos os valores entre 21 e 26 (incluindo-os);

 21  26: compreende todos os valores entre 21 e 26, excluindo o 26;

 21  26: compreende todos os valores entre 21 e 26; excluindo o 21. Neste exemplo, temos Li = 21 e Ls = 26.

(13)

12 Agora podemos introduzir os elementos de uma distribuição de frequências:  Pontos médios das classes (PM)

É a média aritmética entre o limite superior e o limite inferior da classe. Assim, se a classe for, por exemplo de 21  26, temos:

=21+2

2 = 23,5, como ponto médio da classe.  Frequência simples ou absoluta (Fi)

É o número de vezes que o elemento aparece na amostra, ou o número de elementos pertencentes a uma classe. No exemplo 6, F(21) = 3.

 Frequência absoluta acumulada (Fac)

É a soma das frequências de todos os valores inferiores ao limite superior do intervalo de uma dada classe, mais a frequência simples da classe.

 Frequência relativa (fi) e Frequência relativa percentual (fi%)

É a porcentagem daquele valor na amostra. Note que Σfi = 1. A frequência relativa de um valor é dada por:

ou

Passos para a montagem de uma Distribuição de Frequência por intervalos:

1° passo: ordenar os elementos em ordem crescente, indicando a frequência simples de cada elemento (distribuição de frequência por intervalos);

2° passo: Determinar a amplitude total (AT);

3° passo: Determinar o número de intervalos de classe (k); 4° passo: Determinar a amplitude da classe (h);

5° passo: Montagem da distribuição de frequência com título e fonte.

Exemplo 1.9:

Com as notas da turma de Probabilidade e Estatística, do curso de Engenharia Civil, turma A, da Faculdade Redentor – 1°sem/2007, vamos montar uma distribuição de frequência.

5,0 – 4,0 – 5,8 – 3,3 – 6,8 – 3,5 – 4,0 – 7,0 – 7,0 - 8,3 – 9,3 – 9,8 – 7,5 – 8,8 – 7,5 – 6,8 - 10,0 – zero – 6,5 – 2,0 – 8,8 – 9,3 – 7,5 – 5,8 – 9,8 – 9,0 – 7,8 – 6,5 – 9,5 – 5,0 – 7,0 – 8,3 – 6,5

Solução:

1° passo: colocar os elementos em rol (crescente), aqui teremos uma distribuição de frequência por pontos.

(14)

13

Notas (xi) N° Alunos (Fi)

0,0 1 2,0 1 3,3 1 3,5 1 4,0 2 5,0 2 5,8 2 6,5 3 6,8 2 7,0 3 7,5 3 7,8 1 8,3 2 8,8 2 9,0 1 9,3 2 9,5 1 9,8 2 10 1 total 33

2° passo: calcular AT AT = xi(máx) - xi(min) AT = 10 – 0 = 10 3° passo: calcular k K = 1 + 3,3 log 33

K = 6,01 4° passo: calcular h h = AT / k

h = 10 / 6,01 = 1,66 podemos adotar h = 2

5° passo: montar a distribuição de frequência (por intervalos) com título e fonte

Notas da turma de Probabilidade e Estatística, do curso de Engenharia Civil, turma A, da Faculdade Redentor – 1°sem/2007

Notas N° alunos (Fi) Fiac fi fi % PM

0  2 1 1 0,03 3,03% 1 2  4 3 4 0,09 9,09% 3 4  6 6 10 0,18 18,18% 5 6  8 12 22 0,36 36,36% 7 8  10 11 33 0,33 33,33% 9 Total 33 1,00 100,00%

Fonte: Profa. Muriel Comentários:

(15)

14

 As demais colunas foram colocadas para mostrar os elementos de uma distribuição de frequências, que serão utilizados para o cálculo das medidas descritivas de posição e de dispersão. Aí usamos:

Fiac = por exemplo, no último intervalo de classe: Fiac = 22 + 11 = 33 fi = (Fi/n), por exemplo, f = (1/33) = 0,03

f% = (Fi/n)*100, por exemplo: f% = (1/33)*100 = 3% PM = (Li+Ls)/2, por exemplo: PM = (0+2)/2 = 1

 Observe que quando calculamos k, achamos k = 6, mas adotamos k = 5, e colocamos o último intervalo fechado para 10. Para k = 6, teríamos mais um intervalo, de 10  12, o que não é usual, pois nossa maior nota é 10.

Exemplo 1.10:

Vamos completar a distribuição de frequência a seguir e logo após interpretar os valores da terceira linha da distribuição de frequência:

Notas da turma x, do curso y, turma z, da Faculdade w – 2°sem/2011

Notas N° de estudantes Fiac fi(%)

|---2 10% |---4 18 |--- 20 6 |--- |--- 2,5% Total 40

Fonte: Dados fictícios

(16)

15 Exemplo 1.11:

Dadas as séries estatísticas abaixo, vamos dizer se são séries simples ou compostas (mistas) e ainda se são referentes a séries geográficas, temporais, ou específicas.

Fonte: Ciências e agrotecnologia vol.34 no.1 Lavras Jan./Feb. 2010.

Solução:

Tabela 2 - Município de procedência dos alunos da disciplina Inferência Estatística da Universidade Estadual de Maringá, 21/03/2005

Fonte: Departamento de Estatística (DES)/UEM

Solução:

Tabela 3 - Taxa de Urbanização no Brasil – 1940 a 2007

Fonte: IBGE, Censo demográfico 1940-2007. Até 1970 dados extraídos de: Estatísticas do século XX. Rio de Janeiro: IBGE, 2007 no Anuário Estatístico do Brasil, 1981, vol. 42, 1979.

(17)

16 Solução:

Tabela 4 – Caracterização das bacias hidrográficas

http://www.funceme.br/index.php/revista-eletronica-2008/doc_details/20-avaliacao-da-influecia-dos-dados-de-evapotranspiracao (acesso em 04/01/2012)

Solução:

Tabela 5 - Consumo de energia elétrica (Gwh), segundo as grandes Regiões do Brasil, 1993-1995 Região Ano 1993 1994 1995 Norte 11.154 11.506 12.563 Nordeste 35.810 36.910 38.808 Sudeste 137.167 141.746 149.096 Sul 32.884 34.566 37.451 Centro Oeste 10.106 10.899 11.939 Total 215.967 235.627 249.857

Fonte: Anuário Estatístico do Brasil, IBGE,1995

(18)

17 Solução:

Exemplo 1.12:

Vamos considerar a distribuição de frequência abaixo, correspondente aos diferentes preços de um determinado produto em 20 lojas pesquisadas.

Preços (R$) N° de lojas 70 2 71 5 72 6 73 6 74 1 Total 20 Fonte: dados fictícios

a) Quantas lojas apresentaram um preço de R$ 73?

b) Quantas lojas apresentaram um preço de até R$ 72 (inclusive)?

c) Qual o percentual de lojas com preço maior de que R$ 71 e menor de que R$ 74? d) Qual o percentual de lojas com preço menor de que R$ 73?

(19)

18 Exercícios:

1 – Os dados a seguir, referem-se a estatura (em cm) de 70 funcionários da empresa NS, que passaram por exames periódicos do trabalho em Nov/2011.

150 156 160 163 167 168 170 172 174 178 150 156 161 163 167 168 170 173 175 179 150 158 161 163 167 169 171 173 175 179 151 158 162 166 168 170 172 173 175 179 152 158 162 166 168 170 172 174 176 181 153 160 162 167 168 170 172 174 176 182 156 160 163 167 168 170 172 174 176 182 Pede-se:

a) montar uma distribuição de frequências segundo as regras de Sturges; b) o ponto médio da 4° classe;

c) a frequência simples da 3° classe; d) a frequência relativa da 6° classe; e) a frequência acumulada da 5° classe;

f) o n° de funcionários cuja altura não atinge 170;

g) a percentagem de funcionários cuja altura não atinge a 165; h) a percentagem de funcionários cuja altura é maior e igual a 175;

i) a percentagem de funcionários cuja altura é de no mínimo 155 e inferior a 175; j) interprete os valores da 2° classe;

k) interprete os valores da última classe.

2 – Descreva as etapas do método de engenharia e comente sobre a importância da estatística na Engenharia.

(20)
(21)

20

II - REPRESENTAÇÃO GRÁFICA DE SÉRIES ESTATÍSTICAS

2.1. INTRODUÇÃO

A representação gráfica das séries estatísticas tem por finalidade dar uma idéia, a mais imediata possível, dos resultados obtidos, permitindo chegar-se a conclusões sobre a evolução do fenômeno ou sobre como se relacionam os valores da série em estudo. Podemos dizer que os gráficos se constituem num recurso visual da Estatística utilizado para representar um fenômeno.

Embora os gráficos forneçam um menor grau de detalhes do que as tabelas, estes apresentam um ganho na compreensão global dos dados, permitindo uma visão geral da situação em estudo sem deixar de evidenciar alguns aspectos particulares que sejam de interesse do pesquisador.

Uma representação gráfica coloca em evidência as tendências, as ocorrências ocasionais, os valores mínimos e máximos e também as ordens de grandezas dos fenômenos que estão sendo observados. Quanto ao uso, temos os gráficos de informação e os gráficos de análise, como escritos a seguir:

Gráficos de informação: Esses gráficos são usados geralmente quando queremos proporcionar ao público em geral uma visualização rápida e clara. Como são gráficos caracteristicamente expositivos, devem ser o mais com pleto possível, podendo dispensar comentários adicionais. Também podemos omitir as legendas, desde que as informações relevantes estejam presentes no gráfico.

Gráficos de análise: Esses tipos de gráficos são mais adequados ao trabalho com o estudo estatístico, pois fornecem elementos úteis para a análise dos dados, além de serem também informativos. Normalmente, os gráficos de análise são acompanhados de sua respectiva tabela estatística. Também podemos incluir um texto explicativo que tem como objetivo esclarecer ao leitor dos pontos principais divulgados no gráfico.

Contudo, os elementos simplicidade, clareza e veracidade devem ser considerados quando da elaboração de um gráfico. Devemos ficar atentos, pois um gráfico mal construído pode transmitir uma informação deturpada em relação à informação verdadeira. Normalmente isso ocorre por problemas de escala, em que as proporções entre os dados não são respeitadas.

Nosso objetivo principal aqui não é a construção de gráficos, embora isso seja muito importante para o desenvolvimento de algumas disciplinas do curso de

(22)

21 engenharia, mas sim entender melhor um conjunto de dados pelo uso de gráficos adequados que sejam eficazes na revelação de características importantes.

Encontram-se a seguir os principais tipos de gráficos.  Gráfico de barras

É um gráfico formado por retângulos horizontais de larguras iguais, onde cada um deles representa a intensidade de uma modalidade ou atributo. É recomendável que cada coluna conserve uma distância entre si de aproximadamente metade ou 2/3 da largura da base de cada barra, evidenciando deste modo, a não continuidade na sequência dos dados.

O objetivo deste gráfico é de comparar grandezas e é recomendável para variáveis cujas categorias tenham designações extensas. É o gráfico mais utilizado para representar variáveis qualitativas.

Exemplo 2.1:

Acidentes no trecho das cidades de Barbacena e Barroso até a cidade de Itutinga - MG.

Fonte: Dados da 13° CIA PM Ind. de Meio Ambiente e Trânsito, 1° Pelotão PM Rodoviário

(23)

22

Fonte: http://www.admit.com.br/page/14 (acesso em 02/01/2012)

 Gráfico de colunas

Difere do gráfico de barras por serem seus retângulos dispostos verticalmente ao eixo das abscissas sendo mais indicado quando as designações das categorias são breves. Também para este tipo de gráfico deve ser preservada a distância entre cada retângulo de, aproximadamente, metade ou 2/3 da largura da base de cada coluna. O número de colunas ou barras do gráfico não deve ser superior a 12 (doze).

Os gráficos de colunas são muito utilizados para a representação e análise de dados relacionados com séries temporais, sendo assim as colunas devem estar dispostas em ordem cronológica.

(24)

23

Fonte: www.library.com.br/Filosofia/terremot.htm(acesso em 20/11/2011)

Exemplo 2.4:

Fonte: www.library.com.br/Filosofia/terremot.htm(acesso em 20/11/2011)

 Gráfico de setores

Conhecido também como gráfico tipo pizza ou circular é o tipo de gráfico onde a variável em estudo é projetada num círculo, de raio arbitrário, dividido em setores com áreas proporcionais às frequências das suas categorias. São indicados quando se deseja comparar cada valor da série com o total. Recomenda-se seu uso para o caso

(25)

24 em que o número de categorias não é muito grande e não obedecem a alguma ordem específica.

O procedimento para o cálculo do ângulo correspondente a cada categoria é feito por meio de simples proporções: 360º que corresponde a um círculo completo está para o total, assim como xº está para a parte que pertencem à categoria desejada.

A legenda pode ser dispensada e escrevemos no interior de cada setor (fatia) a porcentagem ou quantidade adequada de cada um.

Exemplo 2.5:

Setores das Organizações da Pesquisa

Fonte: www.elogroup.com.br/base_pesquisa2009_perfil.html (acesso em 28/11/2011)

Exemplo 2.6:

(26)

25  Gráfico Polar

É representação de uma série por meio de um polígono. Geralmente presta-se para apresentação de séries temporais. Para construí-lo, dividimos uma circunferência em tantos arcos iguais quantos forem os dados a representar. Pelos pontos de divisas traçamos os raios. Em cada raio é representado um valor da série, marcamos um ponto cuja distância ao centro é diretamente proporcional a esse valor. A seguir unimos os pontos (linhas em laranja e azul).

Exemplo 2.7:

Fonte: besp.mercatura.pt/Pagina.php?codPagina=4(acesso em 28/11/2011)

Vamos interpretar o gráfico acima:

O gráfico polar é produzido para mostrar simultaneamente os percentuais de cada um dos exames. Para cada número no gráfico, a legenda mostra a que indicador se refere e o número de exames por disciplina efetuados na escola. Assim nota-se, por exemplo, que a média de exame de História está perto do percentil 86% enquanto que a média das CFD da mesma disciplina encontra–se perto de 78%, observamos também que na disciplina de matemática, estes alunos tiveram um desempenho inferior as outras disciplinas.

(27)

26 Exemplo 2.8:

Comparação dos valores do momento torçor (na base do prédio), obtido por meio de ensaios em túnel de vento e pelo indicado na NBR 6.123, em função da incidência do vento,

para o projeto Brascan Century Staybridge Suites

Fonte: http://www.arcoweb.com.br/tecnologia/aerodinamica-das-construcoes-modelos-reduzidos-02-03-2006.html (acesso em 28/11/2011)

 Gráfico de linhas

Sua aplicação é mais indicada para representações de séries temporais, pois quando a série cobre um grande número de períodos de tempo, a representação dos valores através das colunas pode conduzir a uma excessiva concentração de dados.

Sua construção é feita colocando-se no eixo vertical (y) a mensuração da variável em estudo e na abscissa (x), as unidades da variável numa ordem crescente. Este tipo de gráfico permite representar séries longas, o que auxilia detectar suas flutuações tanto quanto analisar tendências. Também podem ser representadas várias séries em um mesmo gráfico.

(28)

27 Exemplo 2.9:

Evolução a concorrência no vestibular da FUVEST

Fonte: http://petcivilufjf.wordpress.com/tag/ufjf/ (acesso em 03/01/2012)

Exemplo 2.10:

Fonte: www.bansen.com.br/SALAdeIMPRENSA/mlivre/25072(acesso em 05/08/2011)

Vamos interpretar o gráfico acima:

O gráfico acima mostra que desde abril de 2004, sucessivamente, em todos os meses, a venda dos portáteis tem superado a dos tradicionais computadores pessoais. Nota-se que o gráfico mostra quatro pontos marcantes:

(29)

28 Ponto 1: Em janeiro de 2004, pela primeira vez a venda de notebooks superou a de PCs em unidades: 2.032 notebooks e 1.175 PCs;

Ponto 2: Em abril de 2004, foram vendidos 1.431 notebooks e 1.121 PCs através do Mercado Livre. Desde então, as vendas de portáteis têm sempre superado a de PCs; Ponto 3: Em setembro de 2004, foram vendidos 2.481 notebooks, recorde em 2004;

Ponto 4: Em junho de 2005, houve venda recorde de PCs (2.531 unidades), mas a venda de notebooks também foi recorde (2.656 unidades) e se manteve maior que a de PCs.

 Gráfico de Pontos ou de Dispersão

Os diagramas ou gráficos de pontos fornecem uma apresentação simples, que reflete a dispersão, os extremos, o centro e as falhas ou picos nos dados. Escolhemos uma linha horizontal, na qual colocamos a amplitude dos valores dos dados. Plotamos então cada observação como um ponto diretamente acima dessa linha graduada e, quando várias observações tem o mesmo valor, os pontos são empilhados verticalmente naquele ponto da escala.

Exemplo 2.11:

Fonte: Dados fictícios

Quando desejamos conjuntamente resultados para duas variáveis, o equivalente do gráfico de pontos se chama diagrama de dispersão. Construímos um sistema retangular de coordenadas associando o eixo horizontal a uma das variáveis e ao eixo vertical a outra variável, e plotamos cada observação como um ponto desse plano.

Exemplo 2.12:

Item A

(30)

29

Diagrama de dispersão: E dinâmico X E estático, de 326 peças estruturais de madeira Southern Pine

Fonte: http://www.scielo.br/scielo.php?pid=S1415-43662003000200025&script=sci_arttext (acesso em 04/01/2012)

Exemplo 2.13:

Fonte: http://www.devmedia.com.br/post-4584-Data-Mining-na-Pratica--Algoritmo-K-Means.html(acesso em 04/01/2012)

 Gráfico de Caixa, Boxplot

O gráfico de caixa, boxplot, gráfico das cinco medidas ou gráfico de bigodes é útil na comparação de duas ou mais amostras.

Este gráfico estende-se do 1º quartil ao 3º quartil que correspondem, respectivamente, às bases inferior e superior do retângulo e representa 50% das observações totais. A mediana é representada por uma linha grossa dentro da caixa;

(31)

30 se a amostra for aproximadamente simétrica, a linha que corresponde à mediana divide a caixa em duas partes aproximadamente iguais. A caixa esquerda prolonga-se para baixo do 1º quartil, até ao menor valor da amostra não outlier e a caixa direita prolonga-se para cima do 3º quartil, até ao maior valor da amostra não outlier (obprolonga-servemos o exemplo 2.14).

Os outliers, que são assinalados com um círculo, podem representar erros de introdução de dados, caso em que devemos eliminá-los, ou fazer parte do fenômeno em estudo, caso em que devemos mantê-los, assinalando-se a sua existência. É comum fazermos a análise com e sem outliers e registrar as diferenças.

Exemplo 2.14:

Fonte: Prof. Luiz Augusto Pinto Lemos – DMAT – FURG – 2008

(32)

31

Fonte: http://www.blogcmmi.com.br/geral/serie-indicadores-produtividade(acesso em 04/01/2012)

Temos também os gráficos representativos de distribuições de frequências, que são os histogramas e os polígonos de frequência, que são tipicamente gráficos de análise. A representação das frequências simples é feita através do histograma ou polígono de frequências, enquanto que as frequências acumuladas são representadas por meio do polígono de frequência acumulado ou ogiva de Galton.

 Histograma

É um gráfico de barras ou colunas justapostas (sem separação) que representa uma distribuição de frequência para dados contínuos ou uma variável discreta quando esta apresentar muitos valores distintos.

No eixo horizontal são dispostos os limites das classes segundo as quais os dados foram agrupados enquanto que o eixo vertical corresponde às frequências absolutas ou relativas das mesmas.

Quando os dados são distribuídos em classes de mesma amplitude, exemplo 2.16 (a esquerda), todas as colunas apresentam bases iguais com alturas variando em função das suas frequências absolutas ou relativas. Neste caso, temos que a área de cada retângulo depende apenas da sua altura enquanto que no caso de dados agrupados em classes de dimensões diferentes, como mostra a exemplo 2.16 (a direita), a área de cada coluna já não é mais proporcional à sua altura.

(33)

32

Fonte: http://www.ime.usp.br/~rt/mmfina/apost3a.html (acesso em 04/01/2012)

Exemplo 2.17:

Fonte: http://bi.gave.min-edu.pt/bi/es/860/1446?uid=1446&add (acesso em 04/01/2012)

(34)

33 É um gráfico de linha cuja construção é feita quando unimos os pontos de coordenadas de abscissas correspondentes aos pontos médios de cada classe e as ordenadas, às frequências absolutas ou relativas dessas mesmas classes.

O polígono de frequência é um gráfico que deve ser fechado no eixo das abscissas. Então, para finalizar sua elaboração, devemos acrescentar à distribuição, uma classe à esquerda e outra à direita, ambas com frequências zero. Tal procedimento permite que a área sob a linha de frequências seja igual à área do histograma.

Uma das vantagens da aplicação de polígonos de frequências é que, por serem gráficos de linhas, permitem a comparação entre dois ou mais conjuntos de dados por meio da superposição dos mesmos.

Exemplo 2.18:

Polígono de frequência do número de pessoas que chegam ao banco diariamente.

Fonte: http://mundodaimpermeabilizacao.blogspot.com/2011/03/distribuicao-de-frequencia.html (acesso em 04/01/2012)

(35)

34

Fonte: www.definicionabc.com/tecnologia/histograma.php (acesso em 04/01/2012)

O exemplo 2.20 mostra o polígono de frequência relativas acumulada (Ogiva de Galton) da idade dos habitantes do local X. Neste gráfico, a altura de cada coluna é o número total de observações que é menor ou igual ao limite superior do intervalo. Distribuições cumulativas são também úteis na interpretação dos dados. Quando o tamanho da amostra for grande, o histograma ou polígono de frequência poderá ser um indicador confiável da forma geral da distribuição ou da população de medidas da qual a amostra foi retirada.

Exemplo 2.20:

(36)

35  Gráfico em escala logarítmica

Podemos usar a escala logarítmica para a representação de valores em que a amplitude total é muito grande, quando for inviável ou pouco prática a utilização da escala aritmética devido ao seu tamanho.

Na escala logarítmica alteramos as proporções entre as grandezas, deformando as figuras. Podemos observar que o processo se torna impróprio quando o objetivo é destacar as relações entre valores absolutos, e por outro lado, é possível comparar mais facilmente proporções, percentuais e taxas de crescimento de funções exponencial, de potência, geométrica, etc.

Isso pode ser visto no exemplo 2.21, onde desejamos comparar a evolução produtiva de um determinado produto (café), entre o país X e o estado Y. A tabela 2.1 apresenta os dados, o gráfico (a) está numa escala aritmética ou linear e o gráfico (b) é apresentado numa escala logarítmica.

Pela tabela notamos que o crescimento da produção de café foi o mesmo, mas o gráfico (a) evidencia que a produção de café do país X foi bem maior que a do estado Y. Assim é mais apropriado o uso do gráfico em escala logarítmica, gráfico (b).

Exemplo 2.21:

Tabela 2.1: Produção de café no País X e Estado Y - 1960 a 1985

(a) Gráfico em escala aritmética (b) Gráfico em escala logarítmica Fonte: Dados fictícios

(37)

36  Estereogramas

São gráficos geométricos dispostos em três dimensões, pois representam volume. São usados nas representações gráficas das tabelas de dupla entrada. Em alguns casos este tipo de gráfico fica difícil de ser interpretado dada a pequena precisão que oferecem.

Exemplo 2.22:

Fonte:http://globalsistensnews.blogspot.com/2009_04_01_archive.html (acesso em 04/01/2012)

 Pictogramas

São construídos a partir de figuras representativas da intensidade do fenômeno. Este tipo de gráfico tem a vantagem de despertar a atenção do público leigo, pois sua forma é atraente e sugestiva. Os símbolos devem ser auto-explicativos. A desvantagem dos pictogramas é que apenas mostram uma visão geral do fenômeno, e não de detalhes minuciosos.

(38)

37

Fonte: http://www.oocities.org/paris/rue/5045/2A5.HTM(acesso em 04/01/2012)

 Cartogramas

São ilustrações relativas a cartas geográficas (mapas). O objetivo desse gráfico é o de figurar os dados estatísticos diretamente relacionados com áreas geográficas ou políticas.

Exemplo 2.24:

Fonte: http://cartageografica.blogspot.com/2011/06/visualizando-dados-geoambientais-no_5827.html (acesso em 04/01/2012)

(39)

38 Exemplo 2.25:

Os gráficos podem ser criados em vários programas de computador, como, por exemplo, Excel, Minitab, Statdisk, Calculadoras Programáveis, etc.

Exemplo 2.26:

Baseando-se no gráfico a seguir, responda as seguintes questões:

a) Que tipo de série estatística o gráfico representa? b) Que tipo de gráfico é este?

(40)

39

Distribuição de conceitos de alunos por categoria administrativa pública e privada- ENADE 2006.

Fonte: MEC/INEP/DEAES - ENADE 2006

Solução:

Exemplo 2.27:

Os dados a seguir, referem-se ao peso (em gramas) de uma amostra de 70 conectores de metal produzidos pela empresa YY. (obs: dados fictícios).

150 156 160 163 167 168 170 172 174 178 150 156 161 163 167 168 170 173 175 179 150 158 161 163 167 169 171 173 175 179 151 158 162 166 168 170 172 173 175 179 152 158 162 166 168 170 172 174 176 181 153 160 162 167 168 170 172 174 176 182 156 160 163 167 168 170 172 174 176 182 Pede-se:

(41)

40 a) montar uma distribuição de frequência segundo as regras de Sturges;

b) o ponto médio da 4° classe;

c) a frequência simples da 3° classe; d) a frequência relativa da 6° classe; e) a frequência acumulada da 5° classe;

f) o n° de conectores cujo peso não atinge 170; g) o n° de conectores cujo peso não atinge a 175;

h) a percentagem de conectores cujo peso não atinge a 165; i) a percentagem de conectores cujo peso é maior e igual a 175;

j) a percentagem de conectores cujo peso é de no mínimo 155 e inferior a 175; k) interprete os valores da 2° classe;

l) interprete os valores da última classe; m) o histograma;

n) o polígono de frequências. Solução:

(42)
(43)
(44)

43

III – MEDIDAS DE POSIÇÃO 3.1- INTRODUÇÃO

As medidas de tendência central mais utilizadas são: média aritmética, moda e mediana. Outros promédios menos usados são as médias: geométrica, harmônica, quadrática, cúbica e biquadrática, que não serão vistas nesta unidade.

As outras medidas de posição são as separatrizes.

Temos três formas diferentes (média aritmética, moda e mediana) para três situações distintas (dados não agrupados, dados agrupados sem intervalo de classe e dados agrupados com intervalo de classe), como veremos a seguir.

3.2- MÉDIA ARITMÉTICA

Existem duas médias:

Populacional: representada letra grega μ

Amostral: representada por X, sobre a qual as expressões e os cálculos serão

demostrados.

1ª SITUAÇÃO: Dados não agrupados

Sejam os elementos x1, x2, x3,...,xn de uma amostra, portanto n valores da variável X. A média aritmética da variável aleatória de X é definida por,

n Xi X n i

  1 ou n Xi X 

onde n é o número de elementos do conjunto. Exemplo 3.1:

Suponha que os dados sejam o conjunto de tempo de serviço (em anos) de cinco funcionários: 3, 7, 8, 10 e 11. Determine a média aritmética deste conjunto de dados. Solução: 8 , 7 5 39 5 11 10 8 7 3          n Xi X

Interpretação: o tempo médio de serviço deste grupo de funcionários é de 7,8 anos.

2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples

(45)

44 Quando os dados estiverem agrupados numa distribuição de frequência usaremos a média aritmética dos valores x1, x2, x3,...,xn, ponderados pelas respectivas frequências absolutas: F1, F2, F3, ... , Fn. Assim:

   n i n i Fi Fi Xi X 1 1 . ou n Fi Xi X

.

onde n

Fi, é o número de elementos do conjunto. Exemplo 3.2:

A tabela abaixo representa o número de peças de precisão defeituosas desenvolvidas mensalmente pelo controle de qualidade:

Número de peças com defeito (Xi)

Número de meses (Fi) Xi.Fi 0 2 0 1 3 3 2 6 12 3 8 24 4 4 16 5 2 10 6 1 6 TOTAL 26 71

Determine a média de peças defeituosas por mês. Solução: 73 , 2 26 71 .   

n Fi Xi X

Interpretação: em média, foram encontradas 2,73 peças com defeito por mês.

3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por intervalos de classes a) Processo Longo

   n i i n i i M F F P X 1 1 .

onde PM é o ponto médio de cada intervalo de classe.

(46)

45 h F F d P X n i i n i i i Me M                       

  1 1 .

onde PM Me é o ponto médio da mediana e di é o desvio, ou seja, a diferença entre o

ponto médio de cada intervalo de classe e o ponto médio da mediana. Então,

h P P

diMMMe .

Em seguida, veremos que a mediana é a medida que divide a distribuição em duas partes, é a medida do elemento central.

Exemplo 3.3:

A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule a média aritmética pelos dois processos:

Escores Alunos (Fi) PM Fac PM .Fi di di. Fi

35 |- 45 5 40 5 200 -2 -10 45 |- 55 12 50 17 600 -1 -12 55 |- 65 18 60 35 1080 0 0 65 |- 75 14 70 49 980 1 14 75 |- 85 6 80 55 480 2 12 85 |- 95 3 90 58 270 3 9 Total 58 3610 13 Solução: a) 62,24 58 3610 . 1 1   

  n i i n i i M F F P X b) 10 60 2,24 62,24 58 13 60 . 1 1                               

  x h F F d P X n i i n i i i Me M

PMMe é obtido pela Fac, se temos 58 dados, a mediana está no intervalo que contém o 29° dado, logo no intervalo de 55 |- 65, então temos PMMe = 60.

Interpretação: o desempenho médio deste grupo de alunos foi de 62,24 pontos nesta disciplina.

(47)

46  Média Aritmética Ponderada (X ) (para dados não agrupados) P

Se os elementos x1, x2, x3,...,xn de uma amostra, forem associados a pesos p1, p2, p3,...,pn , a média aritmética ponderada, representada por X é calculada por, P

i n n n P p pi Xi p p p p p x p x p x p x X

          . ... . ... . . . 3 2 1 3 3 2 2 1 1 Exemplo 3.4:

Um professor de Estatística adotou para o ano de 2010 os seguintes pesos para as notas bimestrais: 1° bimestre peso 1; 2° bimestre peso 2; 3° bimestre peso 3; e, 4° bimestre peso 4. Qual será a média de um aluno que obteve as seguintes notas em Estatística: 5, 4, 3 e 2 nos respectivos bimestres ?

Solução: 3 10 30 10 8 9 8 5 4 3 2 1 ) 4 . 2 ( ) 3 . 3 ( ) 2 . 4 ( ) 1 . 5 (           p X

Interpretação: a nota média deste aluno foi de 3 pontos.

3.2. MODA - Mo

Dentre as principais medidas de posição, destacamos a moda. Moda é o valor mais frequente da distribuição (aquele que aparece mais vezes).

1ª SITUAÇÃO: Dados não agrupados

Sejam os elementos x1, x2, x3,...,xn de uma amostra, o valor da moda para este tipo de conjunto de dados é simplesmente o valor com maior frequência.

Exemplo 3.5:

Suponha o conjunto de tempo de serviço (em anos) de cinco funcionários: 3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados.

Solução:

Mo = 8, distribuição unimodal ou modal

Interpretação: o tempo de serviço com maior frequência é de 8 anos. Exemplo 3.6:

Suponha o conjunto de tempo de serviço (em anos) de cinco funcionários: 3, 3, 7, 8, 8 e 11. Determinar a moda deste conjunto de dados.

Solução:

Mo = 3 e Mo = 8, distribuição bimodal

(48)

47 Exemplo 3.7:

Suponha o conjunto de tempo de serviço (em anos) de cinco funcionários: 3, 7, 8, 10 e 11. Determinar a moda deste conjunto de dados.

Solução:

Não existe Mo, logo a distribuição é amodal

Interpretação: não existe o tempo de serviço com maior frequência.

2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples

Para este tipo de distribuição, a identificação da moda é facilitada pela simples observação do elemento que apresenta maior frequência.

Exemplo 3.8:

A tabela abaixo representa o número de peças de precisão defeituosas desenvolvidas mensalmente pelo controle de qualidade. Determine a moda.

Número de peças com defeito (Xi)

Número de meses (Fi) 0 2 1 3 2 6 3 8 4 4 5 2 6 1 TOTAL 26 Solução:

Se a maior frequência é Fi = 8, logo Mo = 3.

Interpretação: Esse resultado indica que a rejeição de 3 peças defeituosas por mês foi o resultado mais observado.

3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes

Para dados agrupados em classes, temos diversas fórmulas para o cálculo da moda. A utilizada será:

Fórmula de Czuber

Procedimento:

a) Identificamos a classe modal (aquela que possuir maior frequência) – CLASSE (Mo).

(49)

48 h Fi Fi Fi Fi Fi Li Mo post ant Mo ant Mo Mo . ) ( 2      em que:

LiMo : limite inferior da classe modal

FiMo : frequência simples do intervalo da classe modal

Fiant: frequência simples anterior do intervalo da classe modal Fipost: frequência simples posterior do intervalo da classe modal h: amplitude do intervalo de classe

Exemplo 3.9:

A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Determine a moda.

Escores Alunos (Fi)

35 |- 45 5 45 |- 55 12 55 |- 65 18 65 |- 75 14 75 |- 85 6 85 |- 95 3 Total 58 Solução:

Classe que contém a Moda: 55 |- 65

h Fi Fi Fi Fi Fi Li Mo post ant Mo ant Mo Mo . ) ( 2      61 10 . ) 14 12 ( 18 2 12 18 55       x Mo

Interpretação: O escore com maior frequência entre o grupo de 58 alunos foi de 61 pontos.

3.3. MEDIANA – Me ou Md

Após colocarmos os dados em ROL, o valor da mediana é o elemento que ocupa a posição central, ou seja, é o elemento que divide a distribuição em 50% de cada lado. É considerada uma separatriz, por ser um promédio que divide o conjunto de dados em partes iguais:

(50)

49 Sejam os elementos x1, x2, x3,..., xn de uma amostra, portanto n valores da variável X. A mediana da variável aleatória de X é definida por,

- Se n é ímpar, então o valor da mediana será o valor central, localizado na posição:

2 1 n PosMe  

- Se n é par, então o valor da mediana será a média das duas observações adjacentes à posição 2 n PosMe  e 1 2 n PosMe   Exemplo 3.10:

Suponha o conjunto de tempo de serviço (em anos) de cinco funcionários: 3, 7, 8, 10 e 11. Vamos determinar a mediana deste conjunto de dados.

Solução:

Como n = 5, então o valor da mediana estará localizado na posição:

3 2 1 5 2 1     n

PosMe , ou seja, 3° elemento, portanto, Me = 8

Interpretação: 50% dos funcionários possuem até 8 anos de tempo de serviço, ou, 50% dos funcionários possuem no mínimo 8 anos de tempo de serviço.

Exemplo 3.11:

Suponha o conjunto de tempo de serviço de cinco funcionários: 3, 7, 8, 10, 11 e 13. Vamos determinar a mediana deste conjunto de dados.

Solução:

Como n = 6, então o valor da mediana estará localizado na posição 3 2 6   Me Pos , (3° elemento), e 1 4 2 6 PosMe    (4° elemento).

E a mediana será calculada como a média aritmética deles.

Assim, no exemplo, teremos: 9

2 10 8

Me

Interpretação: 50% dos funcionários possuem até 9 anos de tempo de serviço, ou, 50% dos funcionários possuem no mínimo 9 anos de tempo de serviço.

2ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por valores simples

(51)

50 Quando os dados estiverem agrupados numa distribuição de frequência identificaremos a mediana dos valores x1, x2, x3,...,xn pela posição da mediana

2

n

PosMe através da frequência absoluta acumulada (Fac).

Exemplo 3.12:

A tabela abaixo representa o número de peças de precisão defeituosas desenvolvidas mensalmente pelo controle de qualidade. Calcule a mediana.

Número de peças com defeito (Xi)

Número de meses (Fi) Fac 0 2 2 1 3 5 2 6 11 3 8 19 4 4 23 5 2 25 6 1 26 TOTAL 26 Solução: 13 2 26 2   n PosMe

Interpretação: em 50% dos meses no máximo 3 peças defeituosas foram desenvolvidas, ou então, em metade dos meses foram encontradas pelo menos 3 peças defeituosas.

3ª SITUAÇÃO: Dados agrupados em uma distribuição de frequência por classes

Procedimento:

1. Calcula-se a posição da mediana:

2 n PosMe 

2. Pela Fac identifica-se a classe que contém o valor da mediana – Classe(Me)

3. Utiliza-se a fórmula: .h Fi Fac ) Me ( POS Li Me Me ant Me    onde:

LiMe = Limite inferior da classe mediana

Fac,ant = Frequência acumulada anterior à classe mediana h = Amplitude do intervalo de classe

FiMe = Frequência absoluta simples da classe mediana n = Tamanho da amostra ou número de elementos

(52)

51 A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina. Calcule a mediana.

Escores Alunos (Fi) Fac

35 |- 45 5 5 45 |- 55 12 17 55 |- 65 18 35 65 |- 75 14 49 75 |- 85 6 55 85 |- 95 3 58 Total 58 - Solução: 1.  29 2 58 Me

Pos elemento, observando a Fac temos:

2. Classe(Me) = 55 |− 65 3. .10 61,67 18 17 29 55    Me

Interpretação: 50% dos alunos obtiveram escore máximo de 61,67 pontos, ou então, metade dos alunos obtiveram escore maior que 61,67 pontos.

 INDICAÇÕES PARA UTILIZAÇÃO DAS TRÊS PRINCIPAIS MEDIDAS DE

POSIÇÃO

De maneira geral, a média é a mais empregada e a moda é a menos empregada e a mais difícil de calcular satisfatoriamente. No entanto, a moda é adequada para caracterizar situações onde estejam em causa os casos ou valores mais usuais. Por exemplo, em estudos de mercado, o fabricante pode estar interessado nas medidas que mais se vendem.

A mediana tem vantagens: é mais fácil de calcular do que a média; é mais resistente do que a média, isto é, a alteração drástica de um só valor do rol reflete-se substancialmente no valor da média e pode não refletir-se, ou refletir-se muito pouco, no valor da mediana.

A média tem vantagens: quando a curva de frequência tem forma mais ou menos simétrica (veremos isso adiante), com abas decaindo rapidamente (valores erráticos muito improváveis), a média é mais eficiente do que a mediana, isto é, está menos sujeita à variabilidade de rol para rol (menos sujeita a variações de amostragem); a média é uma função linear das observações, propriedade que também pode pesar na sua adoção.

Por fim, uma vantagem da mediana e da moda em relação à média aritmética é que esta última não pode ser calculada quando ocorrem classes de frequências com

(53)

52 limites indefinidos (classes abertas). Entretanto, nesta situação, a moda e a mediana podem ser encontradas sem qualquer dificuldade.

A seguir, na Figura 3.1 podemos ver uma comparação da média, mediana e moda, as medidas de centro mais utilizadas:

A Figura 3.2 mostra a distribuição dos dados quanto à simetria. Temos que uma distribuição é assimétrica quando se estende mais para um lado do que para o outro. Pode ser assimétrica negativa Figura 3.2 (a) ou assimétrica positiva Figura 3.2 (c), ou ainda simétrica Figura 3.2 (b), quando os dados do histograma não apresentam diferenças significativas, a esquerda e a direita.

Figura 3.1: Comparação das medidas de centro Fonte: TRIOLA (2008)

(54)

53

Figura 3.2: Assimetria Fonte: TRIOLA (2008)

 RELAÇÃO EMPÍRICA ENTRE A MÉDIA, A MODA E A MEDIANA

Existe uma fórmula empírica de relação entre as medidas de posição, criada por Pearson, para distribuições de frequência unimodais:

) (

3x Me Mo

x  

Calculando cada medida a partir dessa relação temos:

2 3Me Mo x  x Me Mo3 2 3 2x Mo Me  Exemplo 3.14:

A tabela abaixo representa os escores obtidos por um grupo de 58 alunos matriculados em uma determinada disciplina:

Escores Alunos (Fi) PM Fac PM .Fi

35 |- 45 5 40 5 200 45 |- 55 12 50 17 600 55 |- 65 18 60 35 1080 65 |- 75 14 70 49 980 75 |- 85 6 80 55 480 85 |- 95 3 90 58 270 Total 58 3610

Nos exemplos 3.3, 3.9 e 3.13, calculamos a média a moda e a mediana obtendo os seguintes valores: 24 , 62 58 3610 . 1 1   

  n i i n i i M F F P X

Referências

Documentos relacionados

I - O presente concurso destina-se ao provimento de: a) 16 (dezesseis) vagas, sendo 10 (dez) vagas para o Edifício Sede, 2 (duas) vagas para a Procuradoria do Trabalho no Município

Depois da II Guerra Mundial os Soberanos Invisí- veis puderam lançar também as raízes de outra guerra; a “Guerra Fria”, que seria essencial como fachada para consolidar no

Os resultados desta investigação demonstraram que entre os corredores recreacionais portugueses há diferenças entre homens e mulheres não só nas esperadas

As principais lesões em corredores ocorreram em membros inferiores, com maior ocorrência em região de joelho, sendo elas: tendinopatia do tendão patelar, síndrome do

§ 6º Fica responsável pela retenção do imposto de que tratam o § 1º e o inciso II do § 2º deste artigo a instituição intermediadora que receber diretamente a ordem do cliente,

Na saída o mesmo deverá pessoalmente ou através de um se delegado anotar a lista de velejadores que saem para o evento e fazer a checagem dos equipamentos de segurança

Clique com o botão direito no ícone da área e selecione a opção Update para atualizar o arquivo de configuração.. Clique com o botão direito no ícone da área e clique

2º, diversos direitos às pessoas portadoras de transtornos mentais, com especial destaque para melhor tratamento do sistema de saúde conforme suas