Estatística Descritiva
Importância da Estatística
1.1
Introdução
Desde a Antiguidade, vários povos já registravam o número de habitantes, de nascimentos e de óbitos, faziam estimativas das riquezas individual e social, distribuíam eqüitativamente terras ao povo, cobravam impostos e realizavam inquéritos quantitativos por processos que, hoje, chamaríamos de “estatísticas”.
Na Idade Média colhiam-se informações, geralmente com finalidades tributárias ou bélicas.
A partir do séculoX V I começaram a surgir as primeiras análises sistemáticas de fatos sociais, como batizados, casamentos, funerais, originando as primeiras tábuas e tabelas e os primeiros números rela-tivos. No séculoX V I I I o estudo de tais fatos foi adquirindo, aos poucos, feição verdadeiramente científica. Godofredo Achenwall batizou a nova ciência (ou método) com o nome de Estatística, determinando o seu objetivo e suas relações com as ciências. As tabelas tornaram-se mais completas, surgiram as represen-tações gráficas e o cálculo das probabilidades, e a Estatística deixou de ser simples tabulação de dados numéricos coletivos para se tornar o estudo de como se chegar a conclusões sobre o todo (população), partindo da observação de partes desse todo (amostras)”.
Na atualidade os recursos estatísticos têm avançado rapidamente e, com seus processos e técnicas, têm contribuído para a organização dos negócios e recursos do mundo moderno. O desafio da necessi-dade de mudança tem forçado muitas empresas e indústrias a colocar-se sob minucioso exame. Muitas companhias têm identificado qualidade como o principal tópico na busca pela sobrevivência e pela lucra-tividade e crescimento.
Qualidade é um conceito mas, possui interpretação muito extensa. A filosofia de controle de qualidade implica que existe um leque aceitável de características de produtos e serviços em termos de material, dimensão e performance.
Muitos cientistas e usuários têm contribuído para o desenvolvimento da gerência da qualidade.
representa desperdício.
1.2
Por Que Precisamos Aprender Estatística?
Qualquer que seja o controle ou a filosofia gerencial de qualidade de uma organização, a Estatística tem um papel crucial. Os métodos estatísticos são consciente ou inconscientemente usados em várias situações, especialmente na apresentação de informações oriundas de dados numéricos. Diversas vezes, apresentações são baseadas, principalmente, em algum tipo de técnica utilizando teorias matemáticas; porém durante a preparação e apresentação dos dados, métodos estatísticos são utilizados para definir a técnica de coleta de dados e chegar a uma conclusão através das informações coletadas.
Os métodos estatísticos têm aplicações em controle de processo, controle de produto, solução de problema, melhora na fabricação e manutenção econômica além de satisfação do cliente. Por este motivo o conhecimento destes métodos está se tornando cada vez mais importante para engenheiros e demais profissionais engajados em programas de promoção da qualidade e produtividade. Qualquer um que derive informações a partir de dados está agindo como um estatístico.
Métodos estatísticos representam as ferramentas básicas para remediar e controlar variações, porque a análise estatística é a única base para tentar entender variabilidade. Indústrias ocidentais estão acor-dando para o uso de métodos estatísticos e técnicas relacionadas para fazer frente ao crescimento con-stante da competição. Estas empresas também sabem que a implantação de um programa para melhoria da qualidade pode eliminar desperdícios, reduzir os índices de produtos defeituosos fabricados, diminuir a necessidade da realização de inspeção e aumentar a satisfação dos clientes, fatores que implicam em um aumento da produtividade e da competitividade das empresas. É óbvio que empregados de uma em-presa devem tornar-se mais familiarizados com estatística. Eles devem entender e conhecer as técnicas estatísticas disponíveis, e adaptação de dados de experimentos para a análise estatística. Um profissional treinado em Estatística terá maior facilidade em identificar um problema em sua área de atuação, deter-minar os tipos de dados que irão contribuir para a sua análise, coletar estes dados e a seguir estabelecer conclusões e determinar um plano de ação para a solução do problema detectado.
Quase toda atividade e experiência humana envolvem coleta e análise de algum tipo de informação (da-dos). Na coleta de dados relativos ao comportamento ou outras características de um grupo de indivíduos, amostras aleatórias de um processo ou resultados de repetitivas medições, sempre envolvem variação e incerteza. Para utilizar os dados para análise, na maioria dos casos, os mesmos devem ser resumidos e organizados numa forma ou combinação especial facilitando o estabelecimento de conclusões confiáveis sobre algum fenômeno que esteja sendo estudado, ou seja, assunto da estatística descritiva.
1.3
As Ferramentas Estatísticas Contribuem para a Redução da
Variabilidade
A variabilidade também é denominada variação ou dispersão e está presente em todos os processos de produção de bens e de fornecimento de serviços. Considere, por exemplo, uma situação em que serão selecionadas algumas peças provenientes de uma linha de produção e a seguir será medido o diâmetro de cada uma destas peças. Se o instrumento de medida utilizado tiver resolução suficiente, os resultados obtidos serão diferentes, ou seja, existirá variabilidade entre as medidas do diâmetro.
Podemos dizer que a variabilidade é o resultado de alterações nas condições sob as quais as obser-vações são tomadas. Estas alterações podem refletir diferenças entre as matérias-primas, as condições dos equipamentos, os métodos de trabalho, as condições ambientais e os operadores envolvidos no pro-cesso considerado. A variabilidade também é decorrente do sistema de medição empregado.
Na fabricação de um produto atuam diversos fatores que afetam suas características da qualidade, o que poderá dar origem aos produtos defeituosos. Um produto será considerado defeituoso se as suas características da qualidade não satisfazem a uma determinada especificação e será considerado perfeito ou não-defeituoso em caso contrário.
Já que os produtos defeituosos são provocados por variações nas condições de operação do processo, uma redução da variabilidade do processo permite a produção de ítens cuja característica da qualidade de interesse esteja próxima a um valor alvo desejado e dentro dos limites de especificação estabelecidos.
A redução da variabilidade do processo envolve a coleta, o processamento e a disposição de dados, para que as causas fundamentais de variação possam ser identificadas, analisadas e bloqueadas. Por-tanto, o emprego de ferramentas estatísticas contribui para que a redução da variabilidade possa ser alcançada de forma eficaz.
É importante destacar que existem dois tipos de causas para a variação na qualidade dos produtos provenientes de um processo:
1. Causas Comuns ou Aleatórias: é inerente ao processo considerado e estará presente mesmo que todas as operações sejam executadas empregando métodos padronizados;
2. Causas Especiais ou Assinaláveis: surgem esporadicamente, devido a uma situação particular que faz com que o processo se comporte de um modo diferente do usual (ocorrência de defeito nos equipamentos, mudança de operador, etc.)
Para que a redução da variabilidade de um processo possa ser alcançada é fundamental diferenciar, na prática, os dois tipos de causas de variação, já que para cada um deles deverá ser adotada uma forma particular de ação gerencial. Por meio do emprego da Estatística é possível distinguir, de forma objetiva e econômica, as causas comuns das causas especiais de variação. Algumas das ferramentas utilizadas são:
- Gráfico de Pareto;
- Diagrama de Causa e Efeito; - Histograma;
- Diagrama de Dispersão; - Gráfico de Controle.
Apresentação dos Dados
2.1
Método Estatístico
Para muitos a Estatística não passa de conjuntos de tabelas de dados numéricos. Mas será que a estatística é só isso? A Estatística originou-se com a coleta e construção de tabelas de dados para o governo. A situação evoluiu e esta coleta de dados representa somente um dos aspectos da Estatística. Hoje em dia podemos adotar a seguinte definição para a Estatística:Ciência que se baseia na Teoria das Probabilidades e cujo objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas.
Métodoé um conjunto de meios dispostos convenientemente para se chegar a um determinado ob-jetivo. Dos métodos científicos podemos destacar os métodos experimental e estatístico. o método ex-perimental consiste em manter constantes todas as causas (fatores), menos uma, e variar esta causa de modo que o pesquisador possa descobrir seus efeitos, caso existam. É o método preferido no estudo da Física e da Química, por exemplo. Já o método estatístico, diante da impossibilidade de manter as causas constantes, admite todas essas causas presentes variando-as, registrando essas variações e procurando determinar, no resultado final, que influências cabem a cada uma delas. Como exemplo, podemos citar a determinação das causas que definem o preço de uma mercadoria. Para aplicarmos o método ex-perimental, teríamos de fazer variar a quantidade da mercadoria e verificar se tal fato iria influenciar seu preço. Porém, seria necessário que não houvesse alteração nos outros fatores. Assim, deveria existir, no momento da pesquisa, uma uniformidade dos salários, o gosto dos consumidores deveria permanecer constante, seria necessária a fixação do nível geral dos preços das outras necessidades e etc. Mas, isso tudo é impossível. Daí a necessidade de utilização do método estatístico.
2.1.1
Fases do Método Estatístico
1. DEFINIÇÃO DO PROBLEMA: Consiste em uma apreciação ou formulação correta do problema a ser estudado, e levando em consideração os valores: o que, onde, como e quando.
3. COLETA DE DADOS: É a fase que consiste em adquirir as informações necessárias e é feita através de um questionário ou boletim.
A coleta pode ser direta ou indireta. A coleta é direta quando feita sobre elementos informativos de registro obrigatório (nascimentos, casamentos e óbitos, importação e exportação) elementos perti-nentes aos prontuários dos alunos de uma escola, ou ainda, quando os dados são coletados pelo próprio pesquisador através de inquéritos e questionários, a exemplo de notas de verificação e de ex-ames, do censo demográfico, etc. A coleta direta pode ser classificada relativamente ao fator tempo em
— permanente: aquelas onde as informações são sempre atualizadas e são comunicadas por ter-ceiros, por exemplo o registro civil;
— contínua: feita continuamente, por exemplo, a freqüência dos alunos às aulas;
— periódica: feita em intervalos constantes de tempo, é realizada em época certa e em tempo deter-minado, por exemplo, censo (a cada ano);
— ocasional: aquela que é feita em dado momento com a finalidade de atingir um objetivo imediato, por exemplo, uma pesquisa do IBOPE.
A coleta é indireta quando é inferida de elementos conhecidos (coleta direta) e/ou do conhecimento de outros fenômenos relacionados com o fenômeno estudado. Ex.: Pesquisa sobre a mortalidade infantil, feita a partir de dados colhidos por uma coleta direta.
A coleta pode ser adquirida de duas maneiras:
— Por vias internas: são aquelas obtidas dentro da organização;
— Por vias externas: são aquelas que podem ser obtidas por via primária (informação obtida direta-mente pela pessoa), ou por via secundária(obtida através de publicações).
4. CRÍTICA DOS DADOS - Pode ser externa, quando visa às causas dos erros por parte do informante; ou interna quando visa observar os elementos originais dos dados da coleta.
5. APURAÇÃO DOS DADOS: É a soma e o processamento dos dados obtidos e a disposição mediante critérios de classificação. Pode ser manual, eletromecânica ou eletrônica e os cálculos.
6. EXPOSIÇÃO OU APRESENTAÇÃO DOS DADOS: É a maneira de mostrar as informações a ter-ceiros, podendo ser: a) Expositiva (descrição ou narração); b) Aritmética (apresentada através de tabelas); c) Geométrica (através de gráficos); d) Pictórica (o fenômeno é ilustrado através de figuras representativas).
7. ANÁLISE DOS RESULTADOS: Concluídas as fases anteriores (Estatística Descritiva), fazemos uma análise dos resultados obtidos, através dos métodos da Estatística Indutiva ou Inferencial, e tiramos desses resultados conclusões e previsões. É a etapa mais delicada e importante, pois ai temos que tirar as conclusões que servirão para auxiliar o pesquisador a resolver o seu problema. Atualmente a empresa é uma das vigas mestras da Economia dos povos. A direção de qualquer tipo de em-presa, exige de seu administrador a importante tarefa de tomar decisões, e o conhecimento e uso da Estatística facilitará seu tríplice trabalho de organizar, dirigir e controlar a empresa.
2.2
Divisões da Estatística
Estatística Descritiva ou Dedutiva- consiste num conjunto de métodos que ensinam a reduzir uma quantidade de dados bastante númerosa por um número pequeno de medidas (dados numéricos, tabelas, gráficos ou curvas), substitutas e representantes daquela massa de dados.
Estatística Inferencial ou Indutiva- consiste em deduzir ou tirar conclusões (inferir) a respeito das propriedades de um universo a partir de uma amostra. O processo de generalização, que é característico do método indutivo, está associado a uma margem de incerteza. A medida da incerteza é tratada mediante técnicas e métodos que se fundamentam na Teoria das Probabilidades.
A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou a área da Estatística denominada “Estatística Descritiva”.
2.3
População e Amostra
2.1 Definição. [População, Censo ou Universo Estatístico] Conjunto de indivíduos, objetos ou informações que apresentam pelo menos uma característica comum, cujo comportamento interessa analisar. Ou, em outras palavras, conjunto de todas as medidas, observações relativas ao estudo de determinado fenômeno.
Sejaχ ={xi} uma população, ondei representa a ordem do elemento populacional eג = {Yk} um
conjunto de características da população χas quais no interessa estudar. Então, a cada elemento deχ podemos associar a uma característicaYk ∈ג.
ER 2.1. i) O Ministério da Saúde pretende estudar o nível da glucose no sangue das crianças brasileiras com7anos de idade em2001.
População: χ={o conjunto formado por todas as crianças portuguesas com7anos}. Característica: ג={nível de glucose no sangue}.
ii) Deseja-se saber se nas indústrias situadas no Estado da Bahia, em1997, existia algum tipo de controle ambiental.
População: χ={indústrias situadas no Estado da Bahia em1997}.
Característica: ג={existência ou não de algum tipo de controle ambiental na indústria}.
iii) Estudo sobre a precipitação pluviométrica na Região Nordeste no ano1997. População ou universo: χ={área referente à Região Nordeste}. Característica: ג={precipitação pluviométrica}.
iv) Deseja-se conhecer o patrimônio líquido, faturamento, número de empregados, tempo de existência, das empresas situadas no Pólo Petroquímico de Camaçari neste ano.
População ou universo: χ ={empresas existentes no Pólo Petroquímico de Camaçari no ano em estudo}.
Características:ג={patrimônio líquido, faturamento, número de empregados, tempo de existência}.
População ou universo:χ={crianças até dois anos de idade residentes no Cabula em2000}. Característica:ג={idade, peso, estatura, classe social, tipo de dieta alimentar}.
vi) O Serviço de Meteorologia pretende estudar a temperatura ambiente na cidade de Salvador às8hde hoje.
População ou universo:χ={Salvador}.
Característica:ג={a temperatura ambiente às8hde hoje}.
Devemos considerar ainda que as populações podem ser homogêneas (cujas partes todas são da mesma natureza) ouheterogêneas(pelo menos uma das partes possui natureza distinta).
Em geral, como os universos são grandes, investigar todos os elementos populacionais para determi-narmos a característica necessita muito tempo, e/ou o custo é elevado, e/ou o processo de investigação leva a destruição do elemento observado, ou, como no caso de populações infinitas, é impossível obser-var a totalidade da população. Assim, para minimizar a influência dessas dificuldades, estudar parte da população constitui-se um aspecto fundamental da Estatística.
2.2 Definição. [Amostra] Chamamos deamostraum subconjunto próprio e finito da população.
A seleção da amostra é baseada em características da população. População
característica
Técnicas de amostragem
−−−−−−−−−−−−−−−−−−−−→ Amostra
Análise descritiva
Conclusões sobre as características da população
Inferência Estatística
←−−−−−−−−−−−−−−−−−− contidas nos dadosInformações
Figura 2.1: Notas de Aula da Disciplina MAT116 - USP
A estatística, portanto, muito se baseia em fatos deduzidos pela teoria da amostragem. Por exemplo: Sejaµa razão que expressa a intenção de voto a cada10eleitores indagados que o candidato a Prefeito Alberto Magalhães receberia se fosse analisada toda a população de uma cidade que está para realizar eleições brevemente. Como é um resultado difícil de se obter, vamos trabalhar com amostras.
Seja¯x1,¯x2,. . .,¯xk, as razões que expressam a intenção de voto a cada10eleitores indagados, obtidas das amostras de tamanho nde determinadas regiões da cidade. Sabemos que estas medidas só terão algum significado se um número razoável destas estiverem suficientemente próximas da medidaµ. Cada erro absoluto é calculado por
|¯xi−µ|=εi.
Se torna interessante para a Estatística analisar o comportamento dos erros nas diversas amostras referi-das. Como o tamanho da amostra influencia na magnitude do erro, quanto maior for a amostra, mais provável será que se tenha uma melhor estimativa.
quando trabalhamos com amostras, visando conhecer a população, é necessário conhecer a probabilidade αde que o erro obtido não seja maior do queε:
P(|¯xi−µ| ≤ε) = 1−α.
Assim, dizemos que cada amostra érepresentativada população e que a medida¯xi, de uma amostra previamente selecionada, pode ser utilizada como estimativa para a medidaµ.
Uma medida, obtida com cálculos baseados em informações de uma amostra, é chamada deestatística enquanto que a medida, obtida com cálculos baseados em informações de uma população, é chamada de parâmetro. A parte da Estatística responsável pela determinação do tamanho da amostra e da forma de seleção dos seus elementos é chamada Amostragem.
2.4
Variáveis Estatísticas
A Estatística ocupa-se fundamentalmente das propriedades das populações cujas características são passíveis de representação numérica como resultado de medições e contagens. Essas características da população são comumente chamadas de variáveis. As variáveis podem ser divididas em dois grupos: qualitativas e quantitativas.
QUALITATIVA
NOMINAL (sexo, estado civil, cor dos olhos, etc.) ORDINAL (classe social, grau de instrução, etc.)
QUANTITATIVA
CONTÍNUA (peso, altura, salário mensal, etc.)
DISCRETA (número de filhos, número de carros, idade, etc.)
Variáveis qualitativas- quando o resultado da observação é apresentado na forma de qualidade ou atributo. Exemplos: setor de atividade econômica; estado civil; porte da empresa; etc.
- Variável qualitativa nominal - quando não existe qualquer ordenação para os resultados obtidos do processo de observação. Como exemplo, temos, entre as variáveis acima citadas: setor de atividade econômica (industrial, comercial, serviços, etc.); estado civil (solteiro, casado, viúvo, etc.).
- Variável qualitativa ordinal - quando existe uma certa ordenação nos possíveis resultados das observações efetuadas. Exemplo: porte de uma empresa (micro, pequena, média e grande). Outro exemplo seria a classe social (alta, média e baixa); ou, ainda, o grau de escolaridade do empregado (1 grau; 2 grau; e 3 grau).
Variáveis quantitativas- quando o resultado da observação é um número, decorrente de um processo de mensuração ou contagem. Exemplos: número de empregados; salário mensal; faturamento anual; idade; tamanho da família; etc.
- Variável quantitativa discreta - quando os resultados possíveis da observação formam um con-junto finito ou enumerável de números e que resultam, freqüentemente, de uma contagem. Exemplos: número de empregados; tamanho da família.
Para resumir as informações levantadas durante uma pesquisa usaremos a técnica e a representação mais apropriada, a depender do tipo de variável que estamos analisando.
2.5
Apresentação dos dados
2.5.1 Séries Estatísticas
Umasérie estatísticaé toda e qualquer coleção de dados estatísticos referidos a uma mesma ordem de classificação quantitativa. Genericamente podemos dizer que é uma sucessão de números que se relacionam com qualquer variável do fenômeno em estudo. A palavra série é usada normalmente para designar um conjunto de dados dispostos de acordo com um caráter variável. Assim, ao realizarmos um levantamento de dados sobre um fenômeno ou variável, o que obtemos é umasérie estatística.
Dados Brutos e Rol
Quando fazemos um levantamento de dados, se faz necessário o registro das informações coletadas (questionários, formulários, etc.). Estas informações, apresentadas de forma desorganizada são chama-dos dedados brutos. Por exemplo,
4, 3, 4, 5, 7, 4, 6, 6, 7, 7, 4, 6, 5, 6, 6, 7, 5, 8, 5, 6, 2, 3, 6.
Quando os valores para cada variável investigada estão dispostos em uma determinada ordem, crescente ou decrescente, chamamos cada listagem derol. Por exemplo,
2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 8.
Podemos também caracterizar os dados estatísticos à sua espécie ou tipo característico: discretos (podemos contar os ítens);contínuos(não podemos contar);nominais ou categóricos; porpostos.
Classificação das Séries Estatísticas
As séries estatísticas são diferenciadas umas das outras pelos seguintes fatores dos elementos que a compõe:
- A época (fator temporal ou cronológico) a que se refere o fenômeno observado; - O local (fator espacial ou geográfico) onde o fenômeno acontece;
- O fenômeno (espécie do fato ou fator especificativo) que é descrito.
Série Homógrada: a variável apresenta variação descontínua:
1a. Série temporal,cronológica,históricaoumarchas- quando os resultados da observação
do fenômeno são registrados ao longo do tempo.
2a.Série geográficaouespacial- o local varia, permanecendo fixos o tempo e o fenômeno.
3a.Série especificativa,específicaoucategórica- quando o fenômeno é observado segundo
algumas categorias, permanecendo fixos o tempo e o local.
Série Heterógrada: o fenômeno apresenta subdivisões. Embora fixo, o fenômeno varia em intensidade. 4a. Distribuição de freqüências- neste tipo de série estatística o tempo, o local e o fenômeno
permanecem fixos. O fenômeno considerado é uma variável quantitativa (discreta ou contínua) e seus valores observados são descritos considerando o número de vezes que ocorreram na série (freqüência).
2.6
Apresentação de uma Série Estatística
O modo de condensação ou apresentação das informações são dadas por tabelas ou gráficos que facilitam a visualização do fenômeno, permitem a comparação com outros elementos ou, ainda, fazer pre-visões. Os principais tipos de gráficos serão apresentados, porém, antecedendo-os, serão apresentadas as normas de apresentação tabular e as tabelas das séries estatísticas que deram origem aos gráficos.
2.6.1
Apresentação Tabular
A representação tabular (tabela) é uma das modalidades mais utilizadas para a apresentação dos dados estatísticos coleta dos na amostragem.
N
ORMAS DE APRESENTAÇÃO TABULAR DE DADOS
As normas a seguir foram retiradas do documento: Normas de apresentação tabular do Centro de Documentação e Disseminação de Informação3aedição IBGE, Rio de Janeiro,1993. Têm como objetivo fixar conceitos e procedimentos aplicáveis a elaboração de tabelas de dados numéricos, de modo a garantir a clareza das informações apresentadas.
Apresentemos o esboço de uma tabela onde a seguir conceituaremos os elementos que a compõe.
Topo : Espaço superior de uma tabela destinado ao seu título;
TOPO
Cabeçalho das colunas
Coluna↓
Linha→ Célula
RODAPÉ
Centro : Espaço central de uma tabela destinado a moldura, aos dados numéricos e aos termos necessários a sua compressão. No centro identificam-se quatro espaços menores: o espaço do cabeçalho, a col-una, a linha e a célula.
Espaço do cabeçalho: espaço superior do centro de uma tabela destinado a indicação do con-teúdo das colunas. Toda tabela deve ter cabeçalho, escrito no espaço do cabeçalho, para indicar, complementarmente ao título, o conteúdo das colunas. O conteúdo das colunas deve ser feito com palavras ou com notações, de forma clara e concisa. Recomenda-se que a indicação com palavras seja feita por extenso, sem abreviações;
Coluna: Espaço vertical do centro de uma tabela destinado aos dados numéricos (coluna de dados numéricos) ou aos indicadores de linha (colunas indicadoras);
Linha: Espaço horizontal do centro de uma tabela destinado aos dados numéricos. Toda tabela deve ter indicadores de linha, inscritos nas colunas indicadoras, para indicar, complementarmente ao título, o conteúdo as linhas. O conteúdo das linhas deve ser feito com palavras ou com notações, de forma clara e concisa. Recomenda-se que a indicação com palavras seja feita por extenso, sem abreviações;
Dado numérico : Quantificador de um fato especifico observado. A estrutura dos dados numéricos e dos termos necessários a compreensão de uma tabela deve ser feita com, no mínimo, três traços horizontais paralelos. O primeiro para separar o topo, o segundo para separar o espaço do cabeçalho. O terceiro para separar o rodapé;
Célula : espaço mínimo do centro de uma tabela, resultante do cruzamento de uma linha com uma coluna, destinado ao dado numérico ou ao sinal convencional.
Sinal convencional: Representação gráfica que substitui um dado numérico. A substituição de um dado numérico deve ser feita por um dos sinais abaixo, conforme o caso:
− zero não resultante de arredondamento; ·· Não se aplica a um dado numérico;
· · · Dado numérico não disponível;
x Dado omitido; 0
0, 0 0, 00 etc.
zero aproximado de um dado numérico originalmente positivo.
−0 −0, 0 −0, 00 etc.
zero aproximado de um dado numérico originalmente negativo.
contiver sinais convencionais, estes deverão ser apresentados em nota geral com seus respectivos significados. No caso de publicação que contenha tabelas com sinais convencionais, na qual a apre-sentação dos sinais e de seus significados figure em destaque, e dispensável a nota geral em cada tabela.
Rodapé : Espaço inferior de uma tabela destinado a fonte, a nota geral e a nota especifica.
Fonte: Identificador do responsável (pessoa física ou jurídica) ou responsáveis pelos dados numéricos. Toda tabela deve ter fonte, inscrita a partir da primeira linha de seu rodapé. A identificação do responsável ou responsáveis pelos dados numéricos deve ser feita com palavras, por extenso, e precedida da palavra Fonte ou Fontes. Quando os dados sao extraídos de algum documento, recomenda-se a indicação da referencia bibliográfica do documento e quando a tabela contiver dados numéricos resultantes de transformação dos dados numéricos obtidos na fonte, o responsável pela operação deve ser identificado em nota geral ou nota especifica.
Nota geral: Texto esclarecedor do conteúdo geral de uma tabela, quando necessário. Deve ser inscrito logo após o rodapé da tabela e ser precedido do termo Nota ou Notas.
Nota específica: Texto esclarecedor de algum elemento especifico de uma tabela, quando necessário. Deve ser inscrito no rodapé, logo após a nota geral (quando esta existir). Quando uma tabela contiver mais de uma nota especifica, estas devem ser distribuídas obedecendo a ordem de numeração das chamadas, separando-se uma das outras por um ponto.
Chamada : Símbolo remissivo atribuído a algum elemento de uma tabela que necessita uma nota especí-fica. A remissiva atribuída a algum elemento deve ser feita em algarismos arábicos em destaque: entre parênteses, entre colchetes, exponencial. Quando uma tabela contiver mais de uma chamada, estas devem ser distribuídas sucessivamente, de cima para baixo e da esquerda para a direita, em ordem crescente de numeração.
Unidade de medida : Termo indicador da expressão quantitativa ou metrológica dos dados numéricos. Uma tabela deve ter unidade de medida, inscrita no espaço do cabeçalho ou nas colunas indicadoras, sempre que houver necessidade de se indicar, complementarmente ao título, a expressão quantitativa ou metrológica dos dados numéricos. A unidade de medida deve ser feita com símbolos ou palavras entre parênteses.
Apresentação do tempo
1o. Toda série temporal consecutiva deve ser apresentada, em uma tabela, por seus pontos, inicial e final,
ligados por hífen (-).
ER 2.2.
2001-2004: apresenta dados numéricos para os anos de2001,2002,2003e2004.
SET2000-FEV2001: apresenta dados numéricos para os meses de Setembro, Outubro, Novembro, Dezembro de20001e Janeiro, Fevereiro e Março de2001.
30.05.2001-06.06.2001: dados referentes aos dias 30e 31 de Maio de2001 e1, 2, 3, 4, 5, e 6 de Junho de2001.
2o. Toda série temporal não consecutiva deve ser apresentada, em uma tabela, por seus pontos, inicial e
ER 2.3.
2001/2004: apresenta dados numéricos para os anos de 2001 e 2004, não sendo apresentados dados numéricos de pelo menos um dos anos desta serie temporal.
OUT2001/MAR2002: dados referentes aos meses de Outubro de2001e Março de2002, não sendo apresentados dados numéricos de pelo menos um dos meses desta serie temporal.
30.05.2001/06.06.2001: dados referentes aos dias 30de Maio de 2001e 6 de junho de 2001, não sendo apresentados dados numéricos de pelo menos um dos dias desta serie temporal.
3o. No caso de uma serie temporal não consecutiva que contenha um número reduzido de pontos, a
serie temporal pode ser apresentada por todos os seus pontos, separados por vírgula, dispensando-se proceder conforme o item (ii).
4o. Quando uma tabela contiver dados numéricos de uma safra, abrangendo dois anos, a apresentação
do ponto no tempo deve ser feita com os dois últimos algarismos de cada um dos anos ligados por barra (/) e precedida da palavra Safra.
ER 2.4. Safra01/02: apresenta dados numéricos de uma safra iniciada em2001e terminada em 2002.
5o. Quando uma tabela contiver dados numéricos de um período anual diferente do ano civil, isto deve
ser indicado no título, em nota geral ou nota específica
2.6.2 Arredondamento de dados numéricos
Os dados numéricos em uma tabela devem ser arredondados sempre que houver necessidade de apresentá-los com um número menor de algarismos. Isto deve ser indicado em nota geral ou nota especí-fica.
1o. O arredondamento dos dados numéricos deve respeitar as diferenças significativas (absolutas e
rela-tivas) existentes entre eles.
2o. No arredondamento do dado numérico, quando o primeiro algarismo a ser abandonado for0,1,2, 3
ou4, deve ficar inalterado o ultimo algarismo a permanecer.
ER 2.5. Arredondar o número 9, 2317 para um número com duas casas decimais. O valor arredondado será9, 23.
3o. No arredondamento de dado numérico, quando o primeiro algarismo a ser abandonado for5,6,7, 8
ou9, deve-se aumentar de uma unidade o último algarismo a permanecer.
ER 2.6. Arredondar o número9, 2317para um número com três casas decimais. O valor arredondado será9, 232.
(a) 48, 6 para o inteiro mais próximo (g) 5, 781 p/ décimos
(b) 2, 484 p/ centésimos (h) 23, 350 p/ uma casa decimal (c) 0, 0045 p/ milésimos (i) 4, 99 p/ décimos
(d) 22, 250 p/ décimos (j) 25, 351 p/ décimos
(e) 1001, 39 p/ o inteiro mais próximo (k) 324 para a dezena mais próxima (f) 6498 p/ a centena mais próxima (l) 5872 para o milhar mais próximo
A seguir exemplificaremos, através de tabelas, algumas séries estatísticas.
ER 2.7. Série temporal
Índice de Produto Industrial Brasil -1979
Meses IPI
Janeiro 18.633
Fevereiro 17.497
Março 19.470
Abril 18.884
Maio 20.308
Junho 20.146
Julho 20.258
Agosto 21.614
Setembro 19.717
Outubro 22.133
Novembro 20.503 Dezempbro 12.721
Tabela 2.1: FONTE: IBGE
ER 2.8. Série geográfica
População residente segundo os municípios da região metropolitana de salvador−1991
Municípios População
(em 1.000 habitantes)
Camaçari 114
Candeias 68
Dias D’Avila 31
Itaparica 15
Lauro de Freitas 69
Madre de Deus 9
Salvador 2.075
São Francisco do Conde 20
Simões Filho 73
Vera Cruz 22
Total 2.496
Tabela 2.2: FONTE: IBGE, Censo Demográfico, Bahia. 1991.
ER 2.9. Série específica Rebanhos brasileiros−1992
Rebanho Quantidade Bovinos 154.441
Eqüinos 550
Ovinos 19.956 Suínos 34.532 Caprinos 12.160 Tabela 2.3: FONTE: Revista Isto É.
ER 2.10. Série conjugada
Terminais telefônicos em serviço1991−1993
Região 1991 1992 1993
Sudeste 6.234.501 6.729.467 7.231.634 Sul 1.497.315 1.608.989 1.746.232 Nordeste 1.287.813 1.379.101 1.486.649 Centro-Oeste 713.357 778.925 884.822
Norte 342.938 375.658 403.494
Tabela 2.4: FONTE: Revista Isto É.
2.6.3
Atividades
EP 2.2. Assinale a alternativa correta. População ou universo é um:
(a) conjunto de pessoas;
(c) conjunto de todos os indivíduos apresentando uma característica comum objeto de estudo. (d) conjunto de objetos;
(e) n.d.a.
EP 2.3. Estabelecer quais dados são discretos e quais são contínuos:
(a) número de ações vendidas diariamente na Bolsa de Valores; (b) temperaturas registradas em um posto de meteorologia;
(c) vida média das válvulas de televisão produzidas por uma determinada companhia; (d) salários anuais de professores do colégio;
(e) comprimentos de1000parafusos produzidos por uma fábrica.
EP 2.4. Entre as alternativas seguintes, assinale aquela que contiver uma afirmação verdadeira.
(a) Dados Brutos são aqueles que estiverem numericamente organizados; (b) Rol é um arranjo de dados numéricos brutos;
(c) O conjunto das alturas de100estudantes, do sexo masculino, de uma universidade, arranjados em ordem crescente ou decrescente de grandeza, é um exemplo de rol de dados.
EP 2.5. Entre as alternativas seguintes, assinale aquela que corresponder a uma afirmação falsa.
(a) Faz-se um levantamento por censo quando todos os elementos da população são pesquisados. (b) Faz-se levantamento por amostragem quando se pesquisa parte dessa população e, com base no
subconjunto pesquisado, pode-se tirar conclusão acerca da população.
(c) A decisão entre os tipos de levantamento a serem realizados, censo e amostragem, depende de prazo para a realização da pesquisa e recursos financeiros disponíveis, entre outras variáveis que possam implicar em vantagens ou desvantagens do censo e da amostragem.
(d) As afirmações contidas nas alternativas “a” e “c” são falsas. (e) n.d.a.
EP 2.6. As fases principais do método estatístico são:
(a) coleta de dados, amostragem, apresentação tabular, apresentação gráfica e definição do problema; (b) coleta de dados, amostragem, apresentação tabular, apresentação gráfica e definição do problema; (c) amostragem, apresentação tabular, apuração dos dados, interpretação dos dados e planejamento; (d) definição do problema, planejamento, coleta dos dados, apuração, apresentação dos dados, análise
e interpretação dos dados;
EP 2.7. [TCU-94] Assinale a opção correta.
(a) Estatística Inferencial compreende um conjunto de técnicas destinadas à síntese de dados numéricos. (b) O processo utilizado para se medir as características de todos os membros de uma dada população
recebe o nome de censo.
(c) A Estatística Descritiva compreende as técnicas por meio das quais são tomadas decisões sobre uma população com base na observação de uma amostra.
(d) Uma população pode ser caracterizada se forem observados todos os seus componentes.
(e) Parâmetros são medidas características de grupos, determinadas por meio de uma amostra aleatória. EP 2.8. [TTN-94] Marque a opção correta.
(a) Um evento tem, no mínimo, dois elementos do espaço-amostra de um experimento aleatório. (b) Em um experimento aleatório uniforme todos os elementos do espaço-amostra são iguais. (c) Dois experimentos aleatórios distintos têm, necessariamente, espaços-amostra distintos. (d) Uma parte não-nula do espaço-amostra de um experimento aleatório define um evento. (e) Um experimento aleatório pode ser repetido indefinidamente, mantidas as condições iniciais.
EP 2.9. [AFC-94] A tabela abaixo apresenta a distribuição de um grupo de200estudantes segundo o curso que fazem (Estatística ou Matemática) e o sexo (homem ou mulher).
A única afirmação errada é:
(a)40%dos homens estudam Matemática.
(b)75%das mulheres fazem o curso de Matemática.
(c) Dois em cada três estudantes de Estatística são homens. (d) Um em cada três homens faz o curso de Estatística. (e)60%dos estudantes são homens.
Homem Mulher Estatística 40 20
Matemática 80 60
EP 2.10. [AFC-94] A tabela abaixo apresenta a esperança de vida ao nascer para o Brasil (média nacional) e a Região Nordeste (média regional) no período de1940a1980.
Esperança de vida ao nascer (em anos)
Anos Brasil Região Nordeste
1940 41, 5 38, 7
1950 45, 5 38, 9
1960 51, 6 41, 0
1970 53, 5 45, 5
1980 60, 0 51, 0
Tabela 2.5: Fonte: IBGE, Perfil estatístico de crianças e mães no Brasil,1984.
(a) a esperança de vida do cidadão brasileiro cresceu no período1940/1980.
(b) a esperança de vida de um cidadão do nordeste brasileiro cresceu no período1940/1980.
(c) a tabela aponta uma diminuição na diferença entre a esperança de vida na Região Nordeste e a média nacional;
(d) a tabela indica uma defasagem de 20anos entre os valores observados na Região Nordeste e a média nacional;
(e) no período1940/1980, a esperança de vida de um cidadão do Nordeste brasileiro cresceu a uma taxa inferior à taxa média no Brasil.
EP 2.11. [TCDF-95] Assinale a opção correta.
(a) Em Estatística, entende-se por população um conjunto de pessoas.
(b) A variável é discreta quando pode assumir qualquer valor dentro de determinado intervalo. (c) Freqüência relativa de uma variável aleatória é o número de repetições dessa variável. (d) A série estatística é cronológica quando o elemento variável é o tempo.
(e) Amplitude total é a diferença entre dois valores quaisquer do atributo. EP 2.12. [TTN] Assinale a opção correta:
(a) Uma amostra aleatória extraída de uma população deve ser superior, no tamanho, a5%do número de elementos populacionais.
(b) Em um experimento aleatório, cada elemento do espaço amostral tem a mesma probabilidade de ser selecionado, em uma realização do experimento.
(c) Em um experimento aleatório é impossível garantir a ocorrência de um evento em uma particular realização do experimento, se ele não for um evento certo.
(d) Um plano de amostragem corretamente elaborado garante a fidelidade dos dados da população. (e) A opção pela amostragem em relação ao censo, garante a redução de tempo, mas conduz sempre
ao incremento de custo e à perda de precisão. EP 2.13. [TTN] Marque a opção correta:
(a) Dois experimentos aleatórios distintos têm, necessariamente, espaço-amostra distintos. (b) Uma parte não nula de um experimento aleatório define um evento.
Respostas
2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13
c discretos:a c d d b e a c d c c
contínuos:b,c,d,e
2.6.4
Distribuição de Freqüências
Após a coleta de informações relativamente a uma variável dispomos dos dados de uma forma de-sarrumada e, naturalmente, devemos organizá-los. Essa organização facilita a interpretação dos dados e condensa o número de informações. Não é rara as situações onde existem vários valores repetidos. Denominamosfreqüência absoluta, ou simplesmente freqüência, o número de vezes que um determinado valor da variável aparece. Somos capazes de observar muito mais facilmente estes valores ordenados se os dispusermos em uma coluna e, ao lado de cada valor, a sua respectiva freqüência. Esta tabela, portanto, é denominadadistribuição de freqüênciaoudados agrupados.
Tipos de Freqüências
Os tipos de freqüências: as simples, que se dividem em absolutas e relativas e as acumuladas que se dividem em crescente ou decrecente, absolutas ou relativas. Veja ao quadro a seguir.
Freqüência
Simples
Absoluta Relativa
Acumulada
crescente
Absoluta Relativa decrescente
Absoluta Relativa
Afreqüência simplesse divide em
— freqüência simples absoluta (fi): número de ocorrências ou repetições de um valor individual ou um intervalo de valores.
— freqüência simples relativa (f ri): razão entre a freqüência simples absoluta e o número total de da-dos (soma de todas as freqüências simples absolutas).
f ri = fi
i fi.
Claro que i
As freqüências simples absoluta e relativa são simplesmente chamadas de freqüência absoluta e fre-qüência relativa. A frefre-qüência relativa pode também ser apresentada na forma de percentagem, bastando para isso multiplicá-la por100-freqüência simples relativa percentual. As freqüências relativas e relativas percentuais são úteis quando necessitamos comparar dois conjuntos de dados com o total de observação diferentes.
Afreqüência acumulada, absoluta ou relativa, se divide em
— freqüência acumulada crescente ou “abaixo de”: corresponde à soma das freqüências simples (ab-solutas ou relativas) das classes ou dos valores anteriores.
Notação:F cifreqüência absoluta crescente eF r cifreqüência relativa crescente.
A expressão “abaixo de” refere-se ao fato de que as freqüências a serem acumuladas corre-spondem aos valores menores ou anteriores ao valor ou à classe cuja freqüência acumulada se deseja obter, ou seja, as observações existentes até uma determinada classe ou valor individual.
— freqüência acumulada decrescente ou “acima de”: corresponde à soma das freqüências a partir de uma determinada classe ou valor individual.
Notação:F difreqüência absoluta decrescente eF r di freqüência relativa decrescente.
Agora exemplificaremos as distribuições de freqüência e suas respectivas tabelas para cada tipo de variável.
1a- Variáveis qualitativas
As variáveis qualitativas obtidas em uma pesquisa podem ser organizadas em formas de tabelas para facilitar a visualização e análise dos dados. Por exemplo, considere as respostas de30pessoas que foram entrevistadas sobre as bebidas preferidas durante a refeição. Os resultados foram os seguintes:
·Água ·Suco ·Refrigerante ·Suco ·Suco ·Cerveja
·Suco ·Refrigerante ·Suco ·Água ·Refrigerante ·Água
·Água ·Refrigerante ·Outras ·Suco ·Suco ·Suco
·Suco ·Outras ·Refrigerante ·Suco ·Refrigerante ·Outras
·Refrigerante ·Suco ·Refrigerante ·Cerveja ·Refrigerante ·Suco
2a- Variáveis quantitativas discretas
No exemplo a seguir, as informações foram obtidas através de um processo de contagem. Portanto, trata-se de uma variável discreta.
Um outro exemplo envolve o número de defeitos apresentados por uma máquina industrial durante o período de30dias. Os resultados foram os seguintes:
TABELA DE FREQÜÊNCIAS Bebida
preferida
Freqüência simples absoluta
Freqüência acumulada absoluta
Freqüência simples relativa
Freqüência acumulada relativa Água
Cerveja Refrigerante Suco Outras
Total
Tabela 2.6: Fonte: Dados fictícios
·1 ·1 ·1 ·0 ·1 ·1 ·0 ·2 ·1 ·3 ·1 ·0 ·2 ·2 ·1 ·1 ·1 ·1 ·2 ·0 ·1 ·1 ·1 ·4 ·1 ·0 ·3 ·1 ·0 ·1
TABELA DE FREQÜÊNCIAS Número
de defeitos
Freqüência simples absoluta
Freqüência acumulada absoluta
Freqüência simples relativa
Freqüência acumulada relativa 0
1 2 3 4
Total
Tabela 2.7: Fonte: Dados fictícios
EP 2.14. Preencher a tabela com os valores de freqüências correspondentes a cada uma das colunas. Imaginemos que a pesquisa indica o número de salários mínimos dos alunos da turma de estatística.
Valor fi f ri F ci F di F cri F d ri
3 1
4 3
5 4
6 7
7 4
8 1
Soma
(a) Qual a probabilidade de sortearmos, nesta turma, uma pessoa que possui vencimentos igual a 7 salários mínimos?
(c) Qual a probabilidade de sortearmos, nesta turma, uma pessoa que recebe no mínimo 5 salários mínimos?
3a
- Variáveis quantitativas contínuas
No caso em que a série estatística apresenta variáveis quantitativas contínuas, existe a necessidade de organizar os dados originais em uma distribuição de freqüências onde os valores observados são agrupados em classes de valores. Portanto, adotemos a seguinte nomenclatura:
1. Máximo(max): maior valor pertencente ao conjunto. 2. Mínimo(min): menor valor pertencente ao conjunto.
3. Amplitude total(AT): é a diferença entre o valor máximo e mínimo
AT = max−min .
4. Classe: é cada um dos intervalos em que se subdivide a amplitude total. 5. O número de classes(k): Quantidade de classes existentes.
6. Limite superior(ls): é a cota superior para os valores da classe. 7. Limite inferior(li): é a cota inferior para os valores da classe. 8. Tipos de intervalos:
li−ls: Aberto à esquerda e à direita;
li ⊢ls: Fechado à esquerda e aberto à direita; li ⊣ls: Aberto à esquerda e fechado à direita; li ⊢⊣ls: Fechado à esquerda e à direita;
9. Amplitude do intervalo de classe(h): é o comprimento da classe, definida como a diferença entre o limite superior e inferior.
Determinação do número de classes e amplitude do intervalo de classes
Não existem regras gerais para a determinação do número de classes em uma distribuição. No entanto, algumas regras são propostas por autores que nos dão uma idéia aproximada do número de classes em função do número de dados.
A determinação do tamanho e da quantidade de classes deve observar as seguintes normas:
1. As classes devem abranger todos os dados; 2. Não deve existir classe com freqüência nula;
4. Para variáveis contínuas, o limite superior de uma classe é o limite inferior da classe subseqüente. Em geral, na definição das classes, o limite inferior é incluído e o superior excluído.
5. A quantidade de classes, de um modo geral, não deve inferior a5ou superior a25.
6. Quando não for um sério inconveniente, a amplitude dos intervalos de classe deve ser constante.
A Regra de Sturges
Um dos métodos mais utilizados é o chamado deregra de Sturgesouregra do logaritmo. Ele estabelece que o número de classesk será o inteiro imediatamente superior ou igual alog22n, em quené o número
de dados, isto é,
log22n≤k <(log22n) + 1,k∈Z.
Podemos encontrar o valor dek sem, necessariamente, ter que utilizar uma calculadora ou uma tábua de logaritmos. Para isso, considere as seguintes potências de base dois
21 22 23 24 25 26 27 28 29 210 211 212
2 4 8 16 32 64 128 256 512 1024 2048 4096.
Seja num valor que representa a quantidade de dados. Como k é o inteiro imediatamente superior ou igual a log22n, podemos escrever que k −1 < log22n ≤ k. Logo, 2k−1 < 2n ≤ 2k e, em seqüência,
2k−2<n≤2k−1.
A Regra do Quadrado
Outra maneira para se obter o número de classes é
k≈√n,k ∈Z.
A prática recomenda5≤k ≤16.
Mesmo conhecendo alguns métodos para a determinação dok, deve-se saber que a escolha depen-derá antes da natureza dos dados, da unidade de medida e da experiência e do bom senso de quem fará a organização dos dados da pesquisa.
Comparação entre as regras
5 10
100 x
y
Observe que a partir de um determinado valor, o gráfico da funçãolog2(2x)assume valores menores
que os da função√x. Sendo assim, se o intuito for de se ter uma distribuição de freqüências com dados agrupados em uma quantidade menor de classes, devemos utilizar a regra de Sturges.
Amplitude do Intervalo de Classes
Sendo k o número de classes, determina-se a amplitude do intervalo de classesh, como sendo um valor ligeiramente superior aAT
k , pois, desta forma, haverá uma pequena folga na última classe. Com este procedimento aumentamos a amplitude total que os dados nos permitiram obter, mas, é claro que quanto menor for este aumento, mais expressivos serão os resultados obtidos.
Para montar a tabela (distribuição de freqüências) devemos definir as classes: a partir do valor mínimo da amostra e a amplitude de classehtemos a primeira classe. O primeiro elemento das classes seguintes sempre serão formadas pelo último elemento da classe anterior.
ER 2.11. Antes de enviar um lote de aparelhos elétricos para venda, o Departamento de Inspeção da empresa produtora selecionou uma amostra casual de32aparelhos avaliando o desempenho através de uma medida específica, obtendo os seguintes resultados:
·154 ·165 ·175 ·180 ·190 ·195 ·202 ·211 ·155 ·170 ·176 ·180 ·190 ·198 ·205 ·212
·156 ·172 ·178 ·180 ·190 ·200 ·205 ·215 ·164 ·175 ·178 ·184 ·192 ·200 ·210 ·218
Construir uma tabela de distribuição de freqüências com intervalos de classes.
Solução: Neste caso,n= 32e pela regra de Sturgeslog22n≤k. Comolog264 = 6, temos quek= 6.
A amplitude total é dada porAT = 218−154 = 64. Segue que AT k =
64
6 ≈10, 67. Portanto, a amplitude de cada intervalo de classe éh= 11.
maneira:
TABELA DE FREQÜÊNCIAS
Medida
Freqüência simples absoluta
Freqüência simples acumulada
Freqüência simples relativa
154⊢165 4 4 0, 13
165⊢176 5 9 0, 16
176⊢187 7 16 0, 22
187⊢198 5 21 0, 16
198⊢209 6 27 0, 19
209⊢220 5 32 0, 16
Total 32 − 1, 00
Ponto Médio da Classe
Informações relativas aos verdadeiros valores das séries estatísticas são perdidas ao efetuarmos uma distribuição de freqüências por classes já que uma uma simplificação da realidade ocorre. Além disso, esse processo de classificação dos dados não nos permite um tratamento estatístico adequado para a descrição dos dados. Contornarmos esse problema se adotarmos a hipótese de que todos os valores de uma classe são iguais ao valor que se encontra no centro da classe. chamamos esse valor representativo de uma classe de ponto médioouponto central.
No caso da variável contínua, o ponto médio da classei, que representaremos pormi, é definido por:
mi =li+1
2hi;i= 1, 2,. . .,k onde
mi = ponto médio da classei li = limite inferior da classei;
hi = amplitude do intervalo da classei;
k = número de classes da distribuição de freqüências.
ER 2.12. A tabela abaixo apresenta a distribuição da espessura de100folhas de tabaco: 2.01 2.08 1.96 3.04 2.01 3.18 1.94 2.19 2.24 2.18
2.59 1.96 2.29 3.18 2.09 1.96 2.06 2.18 2.05 2.04 2.43 1.56 1.94 3.15 2.35 2.08 2.56 2.17 1.96 1.59 2.22 2.34 2.24 1.95 2.01 3.12 3.03 3.12 2.04 1.66 1.87 2.49 3.12 2.24 1.76 3.20 2.38 1.58 1.89 1.98 1.89 1.71 2.42 1.62 1.97 2.18 1.69 3.14 2.18 3.06 2.40 1.96 3.01 2.19 2.25 1.45 1.93 2.06 1.83 1.84 1.91 2.11 1.78 2.36 2.33 3.17 2.03 1.87 3.11 2.17 1.72 1.62 1.99 1.64 1.54 2.26 1.86 2.09 1.74 1.92 2.36 1.82 2.02 2.25 1.75 3.15 3.18 1.99 1.76 2.51
2.6.5 Atividades
EP 2.15. A tabela abaixo mostra a distribuição de freqüência dos salários anuais, em reais, de 65 empregados de uma firma.
Determine:
(a) o limite inferior da sexta classe; (b) o limite superior da quarta classe; (c) o ponto médio da terceira classe;
(d) a amplitude do quinto intervalo de classe; (e) a freqüência da terceira classe;
(f) a freqüência relativa da terceira classe;
(g) o intervalo de classe que tem maior freqüência;
Salários Empregados
5.000 ⊢ 6.000 8
6.000 ⊢ 7.000 10 7.000 ⊢ 8.000 16 8.000 ⊢ 9.000 14 9.000 ⊢ 10.000 10 10.000 ⊢ 11.000 5 11.000 ⊢ 12.000 2
TOTAL 65
(h) a porcentagem de empregados que ganham menos deR$8.000, 00por ano;
(i) a porcentagem de empregados que ganham menos queR$10.000, 00e pelo menos R$6.000, 00por ano.
EP 2.16. Obtenha a distribuição de freqüências dos dados abaixo, que representam a quantidade vendida de automóveis no decorrer de um mês:
14 12 11 13 14 13 12 14 13 14 11 12 12 14 10 13 15 11 15 13 16 17 14 14
EP 2.17. Considerando as notas de60alunos da faculdade, listadas abaixo, apresente a distribuição de freqüências, sendo30o limite inferior da primeira classe e10para o intervalo de classe.
84 68 33 52 47 73 68 61 73 77 74 71 81 91 65 55 57 35 85 88 59 80 41 50 53 65 76 85 73 60 67 41 78 56 94 35 45 55 64 74 65 94 66 48 39 69 89 98 42 54 85 73 60 67 41 78 56 94 35 45
EP 2.18. Os números abaixo foram obtidos com o lançamento de um dado 60 vezes. Obtenha a distribuição de freqüências sem intervalos de classe:
6 5 2 6 4 3 6 2 6 5 1 6 3 3 5 1 3 6 3 4 5 4 3 1 3 5 4 4 2 6 2 2 5 2 5 1 3 6 5 1 5 6 2 4 6 1 5 2 4 3 1 3 5 4 4 2 6 2 2 5
EP 2.19. Forme a distribuição de freqüências em intervalo de classes, a partir das notas de um teste de inteligência, listadas abaixo, aplicado em100pessoas.
EP 2.20. [TTN] Considere a distribuição de freqüências abaixo e identifique a afirmativa correta: (a)65%das observações têm peso não inferior a4kg e inferior a10kg.
(b) Mais de65%das observações têm peso maior ou igual a4kg. (c) Menos de20observações têm peso igual ou superior a4kg.
(d) A soma dos pontos médios dos intervalos de classe é inferior ao tamanho da população.
(e)8%das observações têm peso no intervalo de classe8⊢10.
Peso(kg) Freqüências
2 ⊢ 4 9
4 ⊢ 6 12
6 ⊢ 8 6
8 ⊢ 10 2
10 ⊢ 12 1
TOTAL EP 2.21. A tabela abaixo representa os salários pagos a100operários de uma empresa.
Pede-se:
(a)node operários que ganham até dois salários mínimos; (b)node operários que ganham até seis salários mínimos;
(c) porcentagem de operários com salário entre6e8salários mínimos; (d) porcentagem de operários com salário igual ou inferior a4 salários
mínimos.
Salários Operários mínimos
0 ⊣ 2 40
2 ⊣ 4 30
4 ⊣ 6 10
6 ⊣ 8 15
8 ⊣ 10 5
TOTAL EP 2.22. Assinale, entre as alternativas, aquela que contiver uma afirmação verdadeira.
(a) Reunindo-se dados brutos em classes pode-se obter o número de indivíduos pertencentes a cada uma das classes, que é denominado “freqüência da classe”.
(b) Os intervalos de classe precisam ser necessariamente iguais, na elaboração de uma tabela que apresente uma distribuição de freqüência.
(c) O limite superior real da classe150−155é155. (d) O limite inferior real da classe150−155é150. (e) n.d.a.
EP 2.23. Assinale, entre as alternativas, aquela que contiver uma afirmação verdadeira.
(a) A amplitude do intervalo de classe é calculada pela soma entre os limites reais inferior e superior de uma classe.
(b) Obtém-se o ponto médio de uma classe pela média aritmética dos limites inferior e superior reais de uma classe.
(c) Um intervalo de classe aberto em seus dois limites inclui ambos os números extremos.
(d) Intervalos de classe fechados têm seus limites superior e inferior reais excluídos dos números que os compõem.
EP 2.24. [TTN] Os intervalos de classe podem ser apresentados de várias maneiras. Dentre as situações abaixo a correta é:
(a)2−6compreende todos os valores entre2e6, inclusive os extremos; (b)2⊢⊣6compreende todos os valores entre2e6, exclusive os extremos; (c)2⊢6compreende todos os valores entre2e6, exclusive2e inclusive6; (d)2⊣6compreende todos os valores entre2e6, inclusive2e exclusive6; (e)2−6compreende todos os valores entre2e6, exclusive os extremos.
EP 2.25. Considere a seguinte distribuição de freqüências, da duração de400válvulas de rádio, ensaiadas pela Companhia Ótima S/A. Os limites superiores reais da quinta e oitava classes, a amplitude do intervalo de classe e a porcentagem das válvulas, cuja duração é de 500 horas, no mínimo, mas inferior a1000horas são, respectivamente:
(a)799, 5;1.199, 5e100horas e79%; (b)799;1.099e99horas e77%; (c)799, 5;1.099, 5,100horas e78%; (d)799;1.199,99horas e80%; (e)799;1.099, 5,100horas e85%.
DURAÇÃO NÚMERO
(HORAS) VÁLVULAS
300
− 399 14
400 − 499 46
500 − 599 58
600
− 699 76
700 − 799 68
800
− 899 62
900 − 999 48
1.000 − 1.099 22
1.100
− 1.199 6
TOTAL 400
EP 2.26. Ouvindo-se 300 pessoas sobre o tema “reforma da previdência, contra ou a favor?”, foram obtidas123respostas a favor,72contra,51pessoas não quiseram opinar, e o restante não tinha opinião formada sobre o assunto. Distribuindo-se esses dados numa tabela, obtém-se:
OPINIÃO fi f ri Favorável 123 x
Contra 72 y
Omissos 51 0, 17 Sem Opinião 54 0, 18
TOTAL 400 1, 00
Na coluna freqüência relativa, os valores dexeysão, respectivamente:
(a) 0, 41e0, 24; (b) 0, 38e0, 27; (c) 0, 37e0, 28; (d) 0, 35e0, 30; (e) 0, 30e0, 35;
(FT/MG) Responda às questões 2.27e 2.28com base na seguinte situação: a distribuição a seguir indica o número de acidentes ocorridos com40motoristas de uma empresa de ônibus.
Acidentes 0 1 2 3 4 5 6 Motoristas 13 7 10 4 3 2 1 EP 2.27. O número de motoristas que sofreram pelo menos4acidentes é:
EP 2.28. A porcentagem de motoristas que sofreram no máximo2acidentes é: (a) 25% (b) 32, 5% (c) 42, 5% (d) 57, 5% (e) 75%
EP 2.29. [TTN] de acordo com a seguinte distribuição de freqüências, assinale a alternativa correta:
(a) Mais de85%das observações têm diâmetro não inferior a6cm. (b)75%das observações estão no intervalo de2⊢12.
(c) A soma dos pontos médios dos intervalos de classe é inferior à soma das freqüências absolutas simples.
(d)28%das observações estão no quarto intervalo de classe. (e) Menos de25das observações têm diâmetro abaixo de10cm.
Diâmetro(cm) fi
4 ⊢ 6 6
6 ⊢ 8 8
8 ⊢ 10 12
10 ⊢ 12 10
12 ⊢ 14 4
Resposta
2.15 2.21 a) 40
a) 10.000(Aparente) b) 80
b) 8.999(Aparente) c) 15%, excluindo o6
c) 7.499, 5 d) 70%
d) 8.999, 5e9.999, 5 2.22 a
e) 1.000 2.23 b
f) 16 2.24 e
g) 24, 61% 2.25 c
h) 7.000−7.999
i) 52, 3% 2.26 a
j) 76, 9% 2.27 b
2.20 b 2.28 e
2.6.6
Apresentação Gráfica
A representação gráfica de séries estatísticas constitui-se num fator importante em apresentações de trabalhos. Esta representação pode ser dividida em três grandes grupos: os diagramas; os cartogramas; e os estereogramas.
◦Diagramas - são figuras geométricas dispostas em duas dimensões. São os mais usados na representação de séries estatísticas.
◦Cartogramas - as séries estatísticas são representadas em cartas geográficas.
Apresentaremos, aqui, apenas os principais diagramas, que podem ser utilizados para qualquer repre-sentação de uma série estatística. São eles:
◦ Gráfico em barras;
◦ Gráfico em colunas;
◦ Gráfico em curvas;
◦ Gráfico em setores;
◦ Histogramas;
◦ Boxplots;
◦ Ramo-e-folhas.
Recomenda-se a seguinte utilização de correspondência entre as séries estatísticas e a sua represen-tação gráfica.
TIPO DE SÉRIE
ESTATÍSTICA FATOR VARIANTE GRÁFICO MAIS INDICADO
Temporal Época Curvas, excepcionalmente Colunas
Especificativas Fenômeno Barras, Colunas ou Setores
Geográficas Local Cartogramas, Colunas, Barras ou Setores
Distribuição de freqüências
Intensidade do fenômeno
Histograma (contínua), Bastão (discreta),
Barras, Colunas ou Setores (qualitativa)
1o. Gráfico em Colunas
ER 2.13. Série Geográfica
NÚMERO DE CRIANÇAS DE BAIXA RENDA, SEGUNDO O BAIRRO DE RESIDÊNCIA, QUE PARTICIPARAM DO ENSINO DE MÚSICA
NA ESCOLA XYZ, SALVADOR - 1998
Bairro Número de crianças
Paripe 11
Periperi 39
Plataforma 45
Praia Grande 25
Total 120
Tabela 2.8: Fonte: Escola de Música XYZ, Salvador.
Número de crianças de baixa renda, segundo o bairro de residência, que participaram do ensino de música
na escola XYZ, Salvador - 1998
Paripe Periperi Plataforma Praia Grande
0 10 20 30 40 50
ER 2.14. Série Especificativa-Temporal
INGRESSANTES DA UNIVERSIDADE XYZ SEGUNDO ÁREA DE ESTUDO E ANO
Área / Ano 1998 1999 2000
Exatas 120 156 68
Humanas 72 85 112
Biológicas 169 145 73
Tabela 2.9: Fonte: Dados Fictícios
Ingressantes da Universidade XYZ segundo área de estudo e ano
1998 1999 2000 0
50 100 150 200
2o
. Gráfico em Barras
ER 2.15. Série Especificativa
TIPO DE FRAUDE NOS CARTÕES DE CRÉDITO DA MASTERCARD INTERNACIONAL
NO BRASIL - 2000
Tipo de fraude Quantidade Cartão roubado 243
Cartão falsificado 85
Pedido por correio/telefone 52
Outros 46
Tabela 2.10: Fonte: Triola, Mario F. Quantidade
Tipo de fraude nos cartões de crédito da Mastercard Internacional do Brasil - 2000
Cartão Roubado Cartão Falsificado Pedido por correio/telefone
Outros
0 50 100 150 200 250 300
3o
. Gráfico de Pareto
O gráfico de Pareto é composto por barras verticais e por uma curva representado a percentagem acumulada. As barras estão disponíveis em ordem decrescente, tornando evidente a priorização de temas. Este gráfico é muito utilizado na área de Controle de Qualidade.
ER 2.16. [Werkema, volume 2]Uma indústria fabricante de lentes tem como objetivo resolver o seguinte problema: aumento do número de lentes defeituosas produzidas pela empresa a partir de fevereiro de1995. A empresa classificou uma amostra de lentes fabricadas durante uma semana de produção de acordo com os tipos de defeitos detectados. O resultado está na tabela abaixo:
DEFEITOS ENCONTRADOS EM UMA AMOSTRA DE LENTES FABRICADAS DURANTE UMA SEMANA DE PRODUÇÃO DE UMA INDÚSTRIA
Tipo de defeito Quantidade
Arranhão 12
Trinca 41
Revestimento inadequado 55
Muito fina ou muito grossa 11
Não acabada 05
Outros 03
Total 127
Número total de lentes inspecionadas: 1.200
con-struirmos o gráfico de Pareto é necessário obtermos a planilha de dados mostrada na tabela a seguir. PLANILHA DE DADOS PARA CONSTRUÇÃO DO GRÁFICO DE PARETOS
Tipo de defeito
Quantidade de defeito
Total Acumulado
Percentagem do Total Geral(%)
Percentagem Acumulada
Revest. Inadeq. 55 55 43, 3 43, 3
Trinca 41 96 32, 3 75, 6
Arranhão 12 108 9, 4 85, 0
Fina ou Grossa 11 119 8, 7 93, 7
Não-Acabada 5 124 3, 9 97, 6
Outros 3 127 2, 4 100, 0
Total 127 − 100, 0 −
Nesta tabela, os tipos de defeitos foram listados em ordem decrescente de quantidade na coluna 1, a quantidade de defeitos aparece na coluna 2 e o total acumulado está na coluna 3. Nas colunas 4 e 5 estão as percentagens totais e as percentagens acumuladas respectivamente. As barras do gráfico de Pareto foram construídas a partir dos dados da coluna 2 e a curva acumulada conhecida como curva de Pareto, foi traçada a partir dos números da coluna 5.
Gráfico de Pareto para defeito das lentes
Defeitos
Revestimento
Inadequado Trinca Arranhão
Fina ou
Grossa Não acabada Outros
0 50 100
0 20 40 60 80 100
Observando o gráfico acima, foi imediato para indústria perceber que os dois tipos de defeitos mais fre-qüentes, “Revestimento inadequado” e “trinca ”, representavam75, 6%dos defeitos detectados nas lentes produzidas pela empresa. Portanto, “Revestimento inadequado” e “Trinca” foram considerados os defeitos mais importantes, que devem ser eliminados em primeira lugar esse tipo de defeito é chamado de poucos defeitos vitais, enquanto que os outros representam apenas os muitos defeitos triviais, pois, representam a minoria das observações.
4o. Gráfico em Linhas ou Curvas
É muito utilizado na representação gráfica de dados não agrupados em classes, ao lado do gráfico de hastes ou bastões e também para a representação de séries temporais (cotação de ações, vendas, etc).
IPI, BRASIL-1979
Meses IPI JAN 18.633
FEV 17.497
MAR 19.470
ABR 18.884
MAI 20.308
JUN 20.146
JUL 20.258
AGO 21.614
SET 19.717
OUT 22.133
NOV 20.503
Fonte: IBGE
ÍNDICE DE PRODUTO INDUSTRIAL - BRASIL - 1.979
0 5.000 10.000 15.000 20.000 25.000
JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV
5o
. Gráfico em Setores
ER 2.18. Série Geográfica
Percentual de funcionários dos coletivos de Salvador segundo área de residência
Área de residência Percentual
Centro 17, 2
Subúrbio 39, 1
Periferia 43, 7
Fonte: Dados Fictícios
17, 2% 39, 1%
43, 7% CentroSubúrbio Periferia
6o. Gráficos de Hastes, Bastões ou Diagrama de Traços
É muito utilizado na representação gráfica de dados não agrupados em classes, o que ocorre nor-malmente com dados discretos. Nestes casos não há perda de informação, pois, os valores da variável aparecem individualmente, como constam da amostra.
ER 2.19.
xi fi 0 10 1 20 2 30 3 25 4 10
5 5 xi
fi
0 10 20 30 40
1 2 3 4 5
7o
. Histograma