Estatística
Estatística
Básica para
Básica para
Engenharia
Engenharia
Silvio Alves de Souza
Silvio Alves de Souza
ÍNDICE
Introdução ...4
Software R ...5
Software SPSS...6
Conceitos Básicos de Estatística ...7
População...9 Amostra ...10 Arredondamento de números ...10 Proporção ...14 Porcentagem ...15 Exercícios ...16
Fases do Método Estatístico ...20
Definição do Problema ...20
Planejamento...20
Coleta dos Dados ...21
Apuração dos Dados ...23
Apresentação dos Dados...23
Análise e Interpretação dos Dados...24
Questionários ...25
Ordem das Questões...26
Tipo de Abordagem ...26
Clareza nas Perguntas ...26
Não Sugerir Respostas...27
A Necessidade do Pré-Teste...27
A Prática de Pesquisas por Amostragem ...27
Amostragem... ...28
Amostragem Aleatória Simples...29
Amostragem Estratificada...31 Amostragem Sistemática...34 Exercícios ...35 Distribuição de Freqüência...41 Dados Brutos ...41 Rol ...41 Tabela de freqüência ...42
Distribuição de Freqüências de Dados Tabulados Não-Agrupados em Classes42 Distribuição de Freqüências de Dados Agrupados em Classes...43
Manual para Normalização de Publicações Técnico – cientificas...49
Exercícios ...50
Medidas de Tendência Central. ...56
Dados brutos ...56
Dados brutos ou em tabela de distribuição simples...69
Dados agrupados em classes...71
Exercícios: ...73 Medidas de Variabilidade...76 Desvio padrão...77 Coeficiente de variação: ...79 Exercícios ...82 Representação Gráfica ...89 Exercícios ...100 Probabilidade ...101 Técnicas de contagem...101 Cálculo de Probabilidade...105 Exercícios: ...118 Distribuições de probabilidade ...126 Variável Aleatória...126
Distribuições discretas de probabilidade...133
Distribuições contínuas de probabilidade ...140
Teste de Hipótese ...152 Distribuição Amostral ...166 Correlação...170 Regressão Linear...177 Regressão Múltipla...184 Bibliografia ...188 Anexo 1 ...189 Anexo 2 ...191
Introdução Introdução
Esta apostila é uma tentativa de compor todo o conteúdo da disciplina Estatística do CEFET – MG. Esta disciplina é ministrada nos vários cursos de Engenharia e Bacharelados.
Seu conteúdo é de acordo com o plano de ensino dos cursos citados acima. Na verdade é um material complementar para os alunos. Ele não os isenta da necessidade de consultar outras bibliografias.A disciplina de Estatística é abordada com o auxílio de vários softwares para tratamento de dados, entre eles o R e o SPSS.
Em anexo estão todas as tabelas utilizadas no decorrer do curso.
Os exemplos e exercícios foram montados com o objetivo de contextualizar o conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum desses cursos para que o aluno possa perceber a utilização da Estatística em cada área do conhecimento.
A construção do conhecimento foi elaborada de acordo com os passos de uma pesquisa, salvo casos em que o conteúdo requer outros elementos essenciais para seu entendimento.
Software R Software R
O software R é um software livre utilizado para análise de dados, cálculo e construão de gráficos.
Sua construção foi feita utilizando vários colaboradores.
Para sua utilização é necessário conhecimento de sua linguagem própria, ou seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas utilizando seus comandos e outras são necessárias a construção de algoritmos.
O R tem um help que os ajuda na execução das tarefas.
No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos. Os comandos necessários bem como a utilização do software serão apresentados no decorrer das aulas.
A utilização deste software é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados.
Comandos básicos
1) Criar vetor: para construir um vetor basta digitar a letra c e, entre parênteses separados por vírgula, digitar os valores do vetor. Para visualisar o vetor basta digitar seu nome na linha de comando.
Exemplo: Criar um vetor de nome x com os valores 2, 3, 6 e 13. Solução: x<- c(2,3,6,13)
Software SPSS Software SPSS
O software SPSS é um software não-livre utilizado para análise Estatística em geral.
Por não ser um software livre muitas pessoas preferem a utilização do software R. No entanto ele é muito utilizado no meio empresarial.
Ao contrário do R o SPSS é bem simples de utilizar. Neste caso não é necessário conhecimento dos comandos.
O SPSS tem um help que os ajuda na execução das tarefas.
No decorrer do curso iremos utilizá-lo para análise de vários dados e para a construção de alguns gráficos específicos.
A utilização deste software também é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados.
Conceitos Básicos de Estatística Conceitos Básicos de Estatística
Estatísticas Estatísticas
Uma coleção de dados numéricos ou qualitativos.
Estatística Estatística
Ramo da ciência que se dedica a desenvolver metodologias para a coleta, classificação, apresentação, análise e interpretação de dados quantitativos e qualitativos e a utilização desses dados para a tomada de decisões.
A Estatística pode ser dividida em três grandes áreas:
Estatística Descritiva Probabilidade Inferência Estatística Estatística Descritiva
Estatística Descritiva
Utiliza técnicas com o objetivo de descrever, analisar e interpretar o conjunto de dados.
É utilizada na etapa inicial da análise.
Probabilidade Probabilidade
Trabalha com a idéia de incerteza.
Desenvolve e utiliza técnicas capazes de calcular as chances de que algum fenômeno aconteça.
Inferência Estatística Inferência Estatística
Desenvolve e utiliza técnicas capazes de fazer uma extrapolação dos resultados, estimação de quantidades desconhecidas e testar hipóteses a partir de uma amostra.
Baseando-se na amostra podemos assim chegar a conclusões sobre a população.
A figura a seguir nos dá uma noção de como podemos trabalhar com os dados:
Natureza dos dados Natureza dos dados
• Dados Nominais: Trata-se de dados qualitativos ou descritivos, ou seja, que descrevem uma qualidade ou uma descrição. Exemplos: solteiro ou casado, certo ou errado, peça boa ou peça defeituosa, etc. Podem ser transformados em dados numéricos, como por exemplo: 1 – solteiro e 2 – casado.
• Dados ordinais: Trata-se de dados numéricos os quais podemos estabelecer desigualdades. Como exemplo considere 1- alumínio e 2 – diamante. Temos que 2>1 (significa que o diamante é mais resistente do que o alumínio).
• Dados intervalares: Trata-se de dados numéricos os quais podemos estabelecer desigualdades e formar diferenças. Exemplo: Temperaturas.
• Dados de razão: trata-se de dados numéricos que podemos estabelecer desigualdades, diferenças, formar multiplicação e divisão. Exemplos: peso,
População Amostra
Estatística Descritiva
Objetivo do Estudo da Estatística Objetivo do Estudo da Estatística
A utilização da Estatística é cada vez mais acentuada em qualquer atividade profissional da vida moderna. Nos seus mais diversificados ramos de atuação, as pessoas estão freqüentemente expostas à Estatística, utilizando-a com maior ou menor intensidade. Isto se deve às múltiplas aplicações que o método estatístico proporciona àqueles que dele necessitam.
População População
Conjunto da totalidade dos indivíduos sobre o qual de faz uma inferência.
Em linguagem mais formal, a população é o conjunto constituído por todos os indivíduos que apresentem pelo menos uma característica comum, cujo comportamento interessa analisar (inferir).
Essas características da população são comumente chamadas de
parâmetros, os quais são valores fixos e ordinariamente desconhecidos. Exemplo:
Suponha que estamos interessados em realizar um estudo sobre a qualidade das peças produzidas por uma empresa em determinado dia. Neste caso existe uma observação para cada peça fabricada naquele dia. Podemos limitar a população a cada turno de trabalho da empresa, como por exemplo o 2º turno.
Observação:
É importante ficar bem claro que uma população é estudada em termos das características a serem estudadas. Assim, por exemplo, o diâmetro de uma peça constituem uma população. Poderia haver uma população correspondente ao comprimento dessas mesmas peças.
Amostra Amostra
Um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela população, através da qual se faz um juízo ou inferência sobre as características da população.
Exemplo:
Avaliação da qualidade das peças produzidas por uma determinada empresa. Seleciona-se, dentre as peças produzidas em determinado dia, uma porcentagem destas peças. Avalia-se as peças selecionadas.
A partir da amostra estabelecemos o que é conveniente para a população, ou seja, fazemos uma inferência sobre a população.
Arredond
Arredondamento de amento de númerosnúmeros
Arredondamento por falta
Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for igual ou menor que quatro, não deverá ser alterado o dígito anterior.
Número a arredondar Arredondamento para Número arredondado
12,489 Inteiros 12
20,733 Décimos 20,7
35,992 Centésimos 35,99
Arredondamento por excesso
Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for maior ou igual a cinco seguido por dígitos maiores que zero, o dígito anterior será acrescido de uma unidade.
Número a arredondar Arredondamento para Número arredondado
15,504 Inteiros 16
16,561 Décimos 16,6
17,578 Centésimos 17,58
Arredondamento centrais
Quando o primeiro dígito, aquele situado mais à esquerda dos que serão eliminados for um cinco ou um cinco seguido somente de zeros, o último dígito anterior, se for par, não se altera, e se for ímpar será aumentado uma unidade.
Número a arredondar Arredondamento para Número arredondado
15,500 Inteiros 16
16,500 Inteiros 16
17,750 Décimos 17,8
17,705 Centésimos 17,70
Arredondamento de Soma
Quando se trata de soma, deve-se arredondar primeiro o total, e posteriormente as parcelas. Há aqui dois casos a considerar:
a) Se a soma das parcelas da série arredondada for superior ao total, deve-se retornar à série srcinal, arredondando-se, por falta, tantas parcelas quantas forem as unidades excedentes. Serão escolhidas as parcelas anteriormente arredondadas por excesso e cujas frações desprezadas representem o menor erro relativo.
Erro relativo Erro relativo
Dados dois números diferentes de zero x e y com x >>>>y , o erro relativo entre eles será calculado pela expressão
x y x E R ==== −−−−
O arredondamento do erro é feito de modo a poder identificar a ordem das parcelas.
Exemplo: O quadro abaixo apresenta um modelo de arredondamento, para inteiro, da soma total de uma série.
Série srcinal Erro relativo Série arredondada Série corrigida
5,51 0,082 6 6 7,50 0,062 8 8 14,63 0,025 15 15 20,10 20 20 24,73 0,011 25 24 * 27,52 0,017 28 27 * Total : 99,99 102 100
Observações: 1. (*) série corrigida
2. O arredondamento do erro foi milesimal para poder identificar as duas menores parcelas.
Veja o cálculo dos erros relativos
082 , 0 6 51 , 5 6 = − = R E 062 , 0 8 50 , 7 8 = − = R E 63 , 14 15−
011 , 0 25 73 , 24 25 = − = R E 017 , 0 28 52 , 27 28 = − = R E
b) Se a soma das parcelas da série arredondada for inferior ao total, deve-se
retornar à série srcinal, arredondando-se, por excesso, tantas parcelas quantas forem as unidades em falta. Serão escolhidas as parcelas anteriormente arredondadas por falta e cujas frações desprezadas representem o menor erro relativo.
Exemplo: O quadro abaixo apresenta um modelo de arredondamento, para centésimo, da soma total de uma série.
Série srcinal Erro relativo Série arredondada Série corrigida
2,514 0,0016 2,51 2,51 12,502 0,0002 12,50 12,50 4,6355 4,64 4,64 11,1028 0,0002 11,10 11,10 35,733 0,0001 35,73 35,74 * 7,524 0,0005 7,52 7,52 Total : 74,0113 74,00 74,01
Proporção Proporção
Um certo número de pessoas foi classificado em quatro categorias. Essas categorias são, naturalmente, mutuamente exclusivas e exaustivas. Em outras palavras: uma pessoa só poderá estar incluída em uma única categoria, e todas elas deverão estar classificadas.
Em termos simbólicos, pode-se escrever:
1
N = número de pessoas incluídas na categoria 1.
2
N = número de pessoas incluídas na categoria 2.
3
N = número de pessoas incluídas na categoria 3.
4
N = número de pessoas incluídas na categoria 4.
4 3 2
1 N N N
N
N = + + + = número total de pessoas consideradas.
Neste caso, a proporção de pessoas pertencentes à primeira categoria é determinada mediante o cálculo do seguinte quociente
N N 1
A proporção de pessoas pertencentes à segunda categoria é determinada mediante o cálculo do seguinte quociente
N N 2 Sucessivamente temos N N 3 e N N 4
o cálculo da proporção das pessoas pertencentes à terceira e quarta categoria.
1 N N N N N N N N N N 1 + 2 + 3 + 4 = = .
Exemplo: A tabela a seguir apresenta o número de sócios praticantes e não-praticantes de futebol em um clube hipotético.
Tabela 1: Número de sócios praticantes e não-praticantes de futebol em um clube hipotético
Sócios Praticante (exclusivamente) de: Clube 1 Proporção
Futebol de salão 580 0,100
Futebol de campo 430 0,074
Não-Praticantes 4810 0,826
Total 5820 1,000
Fonte: Referência bibliográfica 1
Porcentagem Porcentagem
As porcentagens são obtidas a partir do cálculo das proporções, simplesmente multiplicando-se o quociente obtido por 100. Para representá-las usamos o símbolo %.
Voltando ao exemplo anterior temos:
Tabela 2: Número de sócios praticantes e não-praticantes de futebol em um clube hipotético
Sócios Praticante (exclusivamente) de: Clube 1 Porcentagem (%)
Futebol de salão 580 10
Futebol de campo 430 7,4
Não-Praticantes 4810 82,6
Total 5820 100
Exercícios Exercícios
1) Considere as situações a seguir e identifique a população e a amostra em cada caso.
a. Para a análise de desempenho dos alunos da 8.ª série de uma determinada escola municipal foram escolhidas as notas de português de 35 alunos. b. Uma amostra de sangue foi retirada de um paciente com suspeita de alto
colesterol.
c. Uma maternidade entrevista 20 mães de recém nascidos dos 218 partos, no mês de janeiro, para avaliar a satisfação na prestação de serviço.
d. A fim de avaliar a intenção de voto dos eleitores para deputado estadual, um candidato entrevista 2.120 eleitores em Minas Gerais.
2) Use os critérios de arredondamento para arredondar cada valor a seguir para décimos.
a) 21,24 d) 0,75 g) 3,521
b) 1,088 e) 5,819 h) 9,275
c) 125,5555 f) 0,3333 i) 235,25
3) Aplique os critérios de arredondamento para completar o quadro abaixo:
Número a arredondar Arredondamento para Número arredondado
25,458 Centésimo
123,99 Décimo
205,7056 Milésimo
4) Aplique os critérios de arredondamento para completar o quadro abaixo:
Número a arredondar Arredondamento para Número arredondado
1,23 Décimo 5,488 Centésimo 0,126 Centésimo 35,4 Inteiro 13,99 Décimo 25,7056 Milésimo 7,561 Inteiro 690,1555 Centésimo 0,115588 Milésimo
5) A tabela abaixo representa a produção, em unidades, da fábrica X de determinada peça no segundo semestre de 2005.
Mês Produção Julho 35.500 Agosto 34.750 Setembro 36.800 Outubro 35.150 Novembro 32.300 Dezembro 31.250
Calcule: (Use arredondamento para centésimos)
a) a proporção de peças produzidas no mês de outubro. b) a proporção de peças produzidas até setembro. c) a porcentagem de peças produzidas em dezembro.
6) Uma escola ia contratar um grupo de 8 professores para dar um curso sobre computadores em 48 horas, pagando um total de R$ 9 216,00. No entanto, como medida de economia, ela resolveu contratar somente 6 professores e dar o curso em 36 horas. Quanto a escola economizará?
7) João comprou uma mercadoria em uma loja de utilidades. Quando foi pagar a conta, o vendedor informou-lhe que devido a uma promoção relâmpago, ele teria 8 % de desconto na compra à vista pagando, pelo produto, R$ 276,00. João optou por não pagar à vista. Quanto ele pagará pela mercadoria se compra-la a prazo?
8) Para as situações descritas a seguir, identifique a população e a amostra correspondente. Discuta a validade do processo de inferência estatística, ou seja, se as amostras foram coletadas corretamente, para cada um dos casos. Não esqueça de apontar o erro de cada caso.
a) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia.
b) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados.
c) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília.
9) Para encher um reservatório em 15 dias, são necessárias 3 torneiras. Em quanto tempo 5 torneiras, idênticas às anteriores, encherão o mesmo reservatório?
10) Um navio dispõe de reservas suficientes para alimentar 14 homens durante 45 dias, mas recebe 4 sobreviventes de um naufrágio. Durante quantos dias durarão as reservas de alimento?
11) Calcule:
a) 15 % de R$ 2 800,00 ?
b) 42 % de R$ 18 300,00 ?
12) Resolva os problemas abaixo:
a) Numa classe foram reprovados 15 % dos alunos, isto é, 9 alunos. Quantos alunos haviam nesta classe?
b) Em uma cidade haviam 5600 eleitores do candidato A e 7800 eleitores do candidato B.
1) Qual a proporção dos eleitores do candidato A?
2) Qual a proporção dos eleitores do candidato B?
13) Em um colégio existem 1 200 alunos, dos quais 720 são meninos. Determine:
a) Qual a proporção do número de meninos?
b) Qual a proporção do número de meninas?
14) Num livro de 200 páginas, há 30 linhas em cada página. Se houvesse 25 linhas, quantas páginas teria o livro?
Fases do Método Estatístico Fases do Método Estatístico
Quando se pretende empreender um estudo estatístico completo existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo.
Definição do Problema Definição do Problema
A primeira fase do trabalho estatístico consiste em uma definição ou formulação correta do problema a ser estudado.
O problema deve ser preciso, bem determinado e específico.
Além de considerar detidamente o problema objeto do estudo, o analista deverá examinar outros levantamentos realizados no mesmo campo e análogos, uma vez que parte da informação de que necessita pode, muitas vezes, ser encontrada nesses últimos.
Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema.
Planejamento Planejamento
Consiste em se determinar o procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto do estudo.
Mais especialmente, na fase do planejamento a preocupação maior reside na escolha das perguntas.
É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamento:
a) Levantamento censitário, quando a contagem abranger todo o universo.
b) Levantamento por amostragem, quando a contagem for parcial.
a) cronograma das atividades, através do qual são fixados os prazos para as varias fases;
b) Os custos envolvidos;
c) O exame das informações disponíveis; d) O delineamento da amostra;
e) A forma como serão escolhidos os dados, etc.
Obs: Os livros mais específicos sobre pesquisa de mercado poderão ser consultados.
Coleta dos Dados Coleta dos Dados
O terceiro passo é essencialmente operacional.
A coleta de dados se refere à obtenção, reunião e registro sistemático de dados, com um objetivo determinado.
Espécies de dados: Espécies de dados:
I) Dados Primários: quando são publicados ou comunicados pela própria pessoa ou organização que os haja recolhido.
II) Dados Secundários: Quando são publicados ou comunicados por outra organização.
Um conjunto de dados é, pois, primário ou secundário em relação a alguém.
É mais seguro trabalhar com fontes primárias, pois:
a) Uma fonte primária oferece, em geral, informações mais detalhadas do que uma secundária.
b) É mais provável que as definições de termos e de unidades figurem somente nas fontes primárias.
c) O uso da fonte secundária traz o risco adicional de erros de transcrição.
d) Uma fonte primária poderá vir acompanhada de cópias dos impressos utilizados para coletar as informações, juntamente com o procedimento adotado na pesquisa, a metodologia seguida e o tipo de tamanho da amostra.
Essas informações proporcionam ao usuário uma idéia do grau de garantia que os dados oferecem.
A coleta de dados pode ser realizada de duas maneiras: direta ou indiretamente.
Coleta Direta Coleta Direta
A coleta é direta quando é obtida diretamente da fonte.
Ex.: Uma empresa pesquisa seus consumidores.
Há três tipos de coleta direta:
a) Coleta direta contínua: quando estes são obtidos ininterruptamente, automaticamente e na vigência de um determinado período.
Ex.: Registros de nascimento, de casamento, de óbito, etc.
b) Coleta direta periódica: quando é realizada em períodos curtos, determinados, de tempo em tempo.
Ex: Recenseamento demográfico. O censo industrial.
c) Coleta direta ocasional: Quando os dados forem colhidos esporadicamente, atendendo a uma conjuntura qualquer ou a uma emergência.
Coleta Indireta Coleta Indireta
A coleta dos dados é indireta quando é inferida a partir dos elementos conseguidos pela coleta direta, ou através do conhecimento de outros fenômenos que, de algum modo, estejam relacionados com o fenômeno em questão.
É feita, portando, por deduções e conjunturas, podendo ser realizada: a) Por analogia: quando o conhecimento de um fenômeno é induzido a
partir de outro que com ele guarda relações de casualidade.
b) Por proporcionalização: Quando o conhecimento de um fato se induz das condições quantitativas de uma parte dele.
c) Por indícios: quando são escolhidos fenômenos sintomáticos para discutir um aspecto geral da vida social.
d) Por avaliação: quando através de informações fidedignas ou estimativas cadastrais, se presume o estado quantitativo de um fenômeno.
Apuração dos Dados Apuração dos Dados
Consiste em resumir os dados, através de sua contagem e agrupamento. Ela pode ser manual, mecânica, eletromecânica ou eletrônica.
Através da apuração tem-se a oportunidade de condensar os dados, de modo a obter um conjunto compacto de números, o qual possibilita distinguir melhor o comportamento do fenômeno na sua totalidade.
Entretanto, a contrapartida da melhor apreciação dos dados em seu conjunto é a perda correspondentes de detalhes, uma vez que se trata de um processo de sintetização.
Apresentação dos Dados Apresentação dos Dados
Há duas formas de apresentação, que não se excluem mutuamente.
a) Apresentação Tabular: É uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado.
b) Apresentação Gráfica: Constitui uma Apresentação Geométrica. Embora a apresentação tabular seja de extrema importância, no sentido de facilitar a análise numérica dos dados, não permite ao analista obter uma visão tão rápida, fácil e clara do fenômeno e sua variação como a conseguida através de um gráfico.
Análise e Interpretação dos Dados Análise e Interpretação dos Dados
É a última fase e a mais importante e também a mais delicada.
O interesse maior, nesta etapa, reside em tirar conclusões que auxiliem o pesquisador a resolver seu problema.
A análise está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno.
Questionários Questionários
Questionários são o meio mais comum de coleta de informações.
Dois tipos de questões são usualmente empregados na redação de questionários:
Questões de múltipla escolha
Questões de resposta aberta
As alternativas em uma questão de múltipla escolha devem ser claras, mutuamente excludentes e, quando pedirem opiniões, fornecer opções dos dois lados do assunto. Idealmente, as opções devem cobrir todas as respostas prováveis. Se, entretanto, muitas alternativas são apresentadas, elas podem não ser suficientemente claras e confundir o respondente no momento de sua decisão. A grande desvantagem de questões de múltipla escolha é que tendem a sugerir uma resposta, já que limita as respostas possíveis, impedindo o respondente de dizer exatamente o que pensa.
Este tipo de limitação não ocorre nas questões de resposta aberta, em que o entrevistado usa suas próprias palavras para responder à pergunta. Uma pergunta deste tipo produz uma grande gama de respostas que devem ser classificadas em grupos homogêneos antes que se possa fazer uma análise estatística. Esta classificação é uma tarefa difícil quando o número de respostas a serem analisadas é muito grande. Por isso, questões de respostas abertas são mais freqüentemente empregadas em estudos pilotos ou nos estágios exploratórios, quando se procura determinar quais tipos de respostas aparecerão. Essas informações são então usadas na construção do questionário a ser utilizado na obtenção dos dados de um grupo maior. Às vezes é inevitável misturar os dois tipos de pergunta, quando, por exemplo, colocamos a opção “outros” e pedimos especificação. Se os dados forem analisados por computador, deve-se pensar na etapa da codificação ao redigir as perguntas.
Ordem das Questões Ordem das Questões
Um questionário consistente em uma bateria de questões arranjadas em certa ordem. As primeiras questões são para estabelecer contato com o respondente e devem ser bem simples. Quando vários tópicos estão envolvidos, deve-se completar um tópico antes de passar a outro. A ordem das questões freqüentemente afeta as respostas dadas pelo respondente, já que as perguntas chamam a atenção do entrevistado para um conjunto de pensamentos e sentimentos, em cujo contexto as outras perguntas serão respondidas. Em pesquisa de mercado, por exemplo, questões que mencionam um produto específico tendem a viciar as perguntas que se seguem; conseqüentemente, estas questões identificando produtos ou firmas devem ser colocadas no final, sempre que possível.
Tipo de Abordagem Tipo de Abordagem
Muitas pessoas tendem a racionalizar ou exagerar suas respostas quando são questionadas diretamente sobre seus motivos, realizações ou outros assuntos que envolvam seu prestígio ou auto-estima. Para se evitar a introdução de tendenciosidade nessas respostas, usa-se freqüentemente uma abordagem indireta na elaboração de questões que envolvem prestígio. Por exemplo, ao invés de perguntas: “Você terminou o curso secundário?”, pode-se perguntar: “Em que ano você estava quando deixou de estudar?”. Na segunda pergunta tenta-se evitar constrangimento aos respondentes que não terminaram o curso secundário.
Clareza nas Perguntas Clareza nas Perguntas
Uma pergunta deve ter aproximadamente o mesmo sentido para todos os entrevistados; caso contrário, os dados obtidos não terão grande utilidade. Termos com sentido dúbio devem ser evitados. As perguntas devem ser simples. Nem todos os entrevistados entenderão questões com enunciado complexo, srcinando, assim, resultados ruins.
Não Sugerir Respostas Não Sugerir Respostas
Na formulação das perguntas deve-se evitar um tipo de redação como esta: “Você concorda em que esta bebida, sendo a melhor, deva custar mais caro?”
Esta pergunta sugere tão obviamente uma resposta que é praticamente inútil. Algumas vezes, entretanto, é difícil perceber que a redação de uma pergunta possa sugerir determinada resposta.
A Necessidade do Pré-Teste A Necessidade do Pré-Teste
Assim que um questionário tenha sido redigido, deve ser testado em um estudo piloto. Esta fase é fundamental para detectar dificuldades não observadas, como o lay out do questionário, ordem e redação das perguntas, necessidade de instruções mais claras para os entrevistadores, etc. Naturalmente, a correção dessas imprecisões melhorará a qualidade do levantamento.
A Prática de
A Prática de Pesquisas por AmostragemPesquisas por Amostragem
O leitor deve convencer-se de que é fundamental conhecer as características específicas da área onde pretende participar de pesquisas por amostragem. O significado especial de algumas palavras, os melhores locais e horários para se fazer coleta de dados, o tipo de entrevistador são, entre outros, fatores importantes para o bom andamento do levantamento. Só lendo literatura na área específica é que se pode, entretanto, conhecer estes detalhes.
Amostragem Amostragem
Conceitos Fundamentais Conceitos Fundamentais
Assim que decidimos obter informações através de um levantamento amostral, temos imediatamente dois problemas:
definir cuidadosamente a população de interesse e selecionar a característica que iremos pesquisar.
A população-alvo é a população sobre a qual vamos fazer inferências baseadas na amostra.
Caracterizada a população-alvo, o próximo passo é escolher as características que iremos medir. Aqui o erro freqüente é querer incluir muitas características. A qualidade da mensuração cai com o aumento do número de perguntas. Devemos, portanto, fixar-nos apenas em perguntas que contribuam para a quantificação adequada da característica populacional de real interesse para o estudo.
Para que possamos fazer inferências válidas sobre a população a partir de uma amostra, é preciso que esta seja representativa. Uma das formas de se conseguir representatividade é fazer com que o processo de escolha da amostra seja, de alguma forma, aleatório. Além disso, a aleatoriedade permite o cálculo de estimativas dos erros envolvidos no processo de inferência.
Amostragem Aleatória Simples Amostragem Aleatória Simples
Neste caso a amostra é escolhida elemento a elemento. A população é numerada de 1 a N.
Escolhem-se, em seguida, na tábua de números aleatórios, n números compreendidos entre 1 e N.
Esse processo é equivalente a um sorteio no qual se colocam todos os números misturados dentro de uma urna. Os elementos correspondentes aos números escolhidos formarão a amostra.
Exemplo: A tabela a seguir refere-se aos diâmetros de 30 eixos produzidos por uma industria automobilística (dados hipotéticos)
26 32 26 19 20 22 30 31 17 20
16 17 28 15 26 19 14 16 16 26
27 31 13 26 18 29 18 16 21 24
Extrair, sem reposição, uma amostra aleatória de tamanhon = 5.
Solução : Primeiramente deveremos numerar a população.
Eixo 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 Diâmetro 26 32 26 19 20 22 30 31 17 20 16 17 28 15 26 19 14
Eixo 18 19 20 21 22 23 24 25 26 27 28 29 30 Diâmetro 16 16 26 27 31 13 26 18 29 18 16 21 24
Escolhemos uma coluna na TNA.
Procuramos os 5 primeiros números não superiores a 30, lendo os dos últimos algarismos ou os dois primeiros.
Obtemos:
2.ª coluna
Leitura na TNA (2 últimos) 18 15 22 24 03
Amostragem Estratificada Amostragem Estratificada
Quando os elementos da população estão divididos em grupos não superpostos, é mais fácil e mais eficiente escolher, independentemente, uma amostra aleatória simples dentro de cada um destes grupos, os quais são chamados estratos .
Esta forma de amostragem é uma das mais utilizadas, já que a maioria das populações tem estratos bem definidos: os homens e as mulheres; os alunos das escolas X, Y, Z; os estados brasileiros; ect.
O mais comum é utilizar-se a Amostragem Estratificada Proporcional, que consiste em selecionar os elementos da amostra entre os vários estratos, em número proporcional ao tamanho de cada um dos estratos. Em outras palavras, sejam:
N o número de elementos da população L o número de estratos
i
N o número de elementos do estratoi n o tamanho da amostra a ser selecionada
i
n tamanho de amostra no estrato i
Note que
N = N1+ N2+ ... + NL
Calcula-se a fração de amostragem dada por:
f =
N n
Obs: A fração de amostragem calcula o tamanho de amostra por unidade da população.
O número de elementos a serem sorteados em cada estrato será: .f N n1= 1 .f N n2= 2
.f N nL= L
M
Exemplo: Na execução de uma rede elétrica, uma firma especializada utiliza eletrodutos de dois tipos: E e F. em uma análise do custo do material foram considerados 30 faturas, representadas abaixo pelo preço de 10m de eletroduto. Eletroduto (estrato) E Fatura 01 02 03 04 05 06 Preço (R$) 710 710 715 715 755 760 Eletroduto (estrato) F Fatura Preço (R$) Fatura Preço (R$) Fatura Preço (R$) Fatura Preço (R$) 01 750 07 760 13 770 19 790 02 750 08 765 14 770 20 795 03 750 09 765 15 770 21 795 04 750 10 765 16 785 22 800 05 755 11 765 17 785 23 810 06 760 12 765 18 790 24 820
Extrair, sem reposição, uma amostra estratificada proporcional de tamanho n = 8.
Solução:
f = 30
De cada estrato serão sorteadas respectivamenten Een Funidades:
n E= (0,27) . 6 = 1,62≅2
n F= (0,27) . 24 = 6,48≅6
Para encontrar a amostra referente ao eletroduto E utilizamos TNA (8.ª coluna – primeiro algarismo) e para encontrar a amostra referente ao eletroduto F utilizamos TNA (4.ª coluna – últimos algarismos). Assim obtemos:
Estrato E F
Leitura na
TNA
3 1 20 03 18 17 24 12
Fatura (R$) 715 710 795 750 790 785 820 765
Entre as vantagens da amostragem estratificada destacam-se:
a) os dados são geralmente mais homogêneos dentro de cada estrato do que na população como um todo;
b) o custo da coleta e análise dos dados é freqüentemente menor nesse tipo de amostragem do que na aleatória simples, devido a conveniências administrativas;
c) podem-se obter estimativas separadas dos parâmetros populacionais para cada estrato sem selecionar outra amostra e, portanto, sem custo adicional.
Amostragem Sistemática Amostragem Sistemática
Uma amostragem sistemática de tamanhon é constituída dos elementos de ordem K, K+r, K+2r, ... , onde K é um inteiro escolhido aleatoriamente entre 1 en . E r é o inteiro mais próximo da fração
n N r ≈
Por exemplo, se a população tem 100 elementos e vamos escolher uma amostra de tamanho 6, K é um inteiro escolhido aleatoriamente entre 1 e 6, e r = 100/6 = 16,6 = 17.
Pela TNA (8ª coluna – primeiro algarísmo) K = 3. Assim a amostra será composta pelos elementos de posição:
3, 20, 37, 54, 71, 88
Se o tamanho da população é desconhecido, não podemos determinar exatamente o valor der . Escolheremos intuitivamente um valor razoável parar .
Às vezes a amostragem sistemática é preferida à amostragem aleatória simples, porque é mais fácil de executar, estando portando menos sujeita a erros, e proporciona mais informações com menor custo.
Exemplo: escolha a técnica adequada para extrair uma amostra de 50 compradores de uma loja.
Solução: A amostragem aleatória simples não pode ser empregada neste caso, pois o entrevistador não pode determinar quais compradores serão incluídos na amostra, uma vez que não se conhece o tamanho N da população, até que todos os compradores tenham ido à loja. Assim, ele pode usar a amostragem sistemática (digamos 1 em cada 20 compradores) até obter a amostra do tamanho desejado.
Exercícios Exercícios
1) Com relação a amostragem aleatória simples é CORRETO afirmar que:
a) ( ) Utilizamos a tabela de números aleatórios para encontrar o valor do k. b) ( ) É utilizada quando conhecemos parte da população
c) ( ) Pode ser utilizada quando não conhecemos a população
d) ( ) É um método aleatório em que não há possibilidade do pesquisador interferir na escolha da amostra;
e) ( ) Nenhuma das alternativas acima.
2) Com relação a amostragem sistemática é CORRETO afirmar que:
a) ( ) Permite encontrar amostras de população cujo número total de elementos é desconhecido;
b) ( ) A amostra é encontrada utilizando uma progressão geométrica cujo primeiro termo é o primeiro elemento da população ;
c) ( ) A amostra é encontrada utilizando uma progressão aritmética cujo primeiro termo é o primeiro elemento da população ;
d) ( ) A amostra é encontrada utilizando uma progressão aritmética cuja razão é encontrada na tabela de números aleatórios;
e) ( ) Nenhuma das alternativas acima.
3) Com relação a amostragem estratificada é CORRETO afirmar que:
a) ( ) Permite encontrar amostras de estratos que não possuem nenhuma característica em comum;
b) ( ) Os estratos devem ser disjuntos;
c) ( ) A amostra é sempre dividida em partes iguais para cada estrato; d) ( ) Utilizamos uma amostragem aleatória simples considerando todos os
estratos juntos;
4) O gerente de um determinado banco com o intuito de fazer uma pesquisa junto a seus clientes utiliza o seguinte processo: Pega o primeiro cliente que compareceu à agência naquele dia e o entrevista. O segundo a ser entrevistado é o 6.º cliente. O terceiro a ser entrevistado é o 11.º cliente e assim sucessivamente até que a agência feche. É CORRETO afirmar que:
a) ( ) O gerente utilizou uma amostragem estratificada proporcional; b) ( ) O gerente utilizou uma amostragem aleatória simples; c) ( ) O gerente utilizou uma amostragem sistemática; d) ( ) O gerente não utilizou nenhum método de amostragem; e) ( ) Nenhuma das alternativas acima.
5) Considere o seguinte problema: Deve-se extrair uma amostra estratificada proporcional de tamanho 60 de uma população de tamanho 4.000, que consiste de três estratos de tamanhos N1=2.000, N2=1.200 e N3= 800. É CORRETO afirmar que:
a) ( ) Do primeiro estrato deverá ser extraída 18 amostras; b) ( ) Do segundo estrato deverá ser extraída 30 amostras; c) ( ) Do terceiro estrato deverá ser extraída 12 amostras; d) ( ) Deverá extrair 20 amostras de cada estrato; e) ( ) Nenhuma das alternativas acima.
6) A única opção que traz dois métodos de amostragem em que é preciso conhecer todos os elementos da população é:
a) ( ) Aleatória simples e por conglomerado; b) ( ) Por conglomerado e sistemática; c) ( ) Aleatória simples e sistemática; d) ( ) Estratificada e por conglomerado; e) ( ) Nenhuma das alternativas acima.
Professor 1 2 3 4 5 6 7 8 9 10 11 12 Taxa de
hemoglobina 11,1 12,2 15,2 11,3 14,4 12,7 13,5 15,8 11,7 16,3 14,1 12,5
Extrair uma amostra sistemática de 3 taxas de hemoglobina. (Usar 7.ª coluna da TNA, último algarismo).
8) Os dados abaixo referem-se ao salário (em salários mínimos) de 20 funcionários administrativos em uma indústria.
10.1 7.3 8.5 5 4.2 3.1 2.2 9 9.4 6.1
3.3 10.7 1.5 8.2 10 4.7 3.5 6.5 8.9 6.1
a) Extraia uma amostra de 6 elementos usando a amostra aleatória simples. (Usar 2.ª coluna na TNA, dois últimos algarismos);
TNA 18 15 03 16 01 19
Salário 6.5 10 8.5 4.7 10.1 8.9
b) Extraia uma amostra de 5 elementos usando a amostra sistemática. (Usar 2.ª coluna na TNA, último algarismo).
9) Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metrô e trem, o número de diferentes meios de transporte utilizado foi o seguinte: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2 e 3.
a) Extraia uma amostra de 10 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra de 10 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos);
10) A idade dos 20 ingressantes num certo ano no curso de pós-graduação em jornalismo de uma universidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24,
25, 25, 26, 26, 26, 26, 27, 28, 35 e 40.
a) Extraia uma amostra, com reposição, de 8 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra, sem reposição, de 8 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, último algrarismo);
11) Um novo medicamento para cicatrização está sendo testado e um experimento é feito para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. As 30 cobaias tiveram os seguintes tempos: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14.
a) Extraia uma amostra, sem reposição, de 10 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra, sem reposição, de 10 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos);
12) Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de português e 40 de matemática. Para os 20 melhores classificados, apresentamos o número de acertos em cada disciplina, em ordem decrescente de pontos:
Aluno 1 2 3 4 5 6 7 8 9 10
Português 35 35 34 32 31 30 26 26 24 23
Matemática 31 29 27 28 28 26 30 28 25 23
Aluno 11 12 13 14 15 16 17 18 19 20
a) Extraia uma amostra de 5 alunos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos);
b) Extraia uma amostra de 5 alunos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos);
13) Em uma escola da rede municipal, estão matriculados 370 alunos no curso da manhã. Eles estão distribuídos na seguinte maneira:
Salas 5.ª A 5.ª B 5.ª C 6.ª A 6.ª B 6.ª C 6.ª D 7.ª A 7.ª B 8.ª A 8.ª B 8.ª C
Alunos 30 25 30 30 30 25 25 35 40 35 35 30
a) Extraia uma amostra de 74 alunos usando a amostra estratificada. (Usar 3.ª coluna na TNA, dois últimos algarismos)
14) O Departamento de Ensino de uma Escola Particular, de um bairro de classe
média, deseja realizar uma pesquisa para saber se seria conveniente criar o 2.º grau em seu quadro de turmas. Isso porque ela ministra apenas da 1.ª série à 8.ª série do ensino básico e fundamental.
Para isso ela contrata uma firma de consultoria para realizar esta pesquisa. Suponhamos que você faça parte dessa firma e seja indicado(a) para formular um questionário a fim de coletar dados que irão ajudar na solução deste problema. Então você deverá criar um questionário com esse objetivo. Bom trabalho.!!!
15) Os dados a seguir referem-se ao consumo de energia elétrica, em mil MWh. Os dados são da CEMIG,FURNAS, ELETROBRÁS.
Setor 2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 Refinaria
de petróleo 301 286 262 248 246 253 238 259 242 236 251
Química 3471 3465 3189 3089 2929 2770 2591 2747 2033 Residencial 7301 7118 7047 6965 6963 6785 6899
Usar: Refinaria: 2ª coluna, Química: 4ª coluna e Residência: 7ª coluna. Ambos utilizar primeiros lgarísmos.
16) Os dados a seguir referem-se ao número de acidentes de tráfego durante 50 horas de pico em certa rodovia.
1 0 3 2 3 5 3 0 2 7
0 4 3 1 3 1 5 3 4 4
2 1 3 1 2 2 1 0 2 0
0 1 1 2 4 5 3 4 3 4
3 3 5 2 1 6 1 2 4 6
17) Os dados a seguir referem-se ao número de alarmes falsos (acionados acidentalmente ou por mau funcionamento do equipamento) recebidos em 30 dias por um serviço de monitoramento da segurança.
3 6 2 4 5 8 2 5 6 3
4 7 4 6 5 5 5 4 3 7
4 4 6 3 9 5 7 4 4 6
18) Um artigo em Technometrics (Vol. 19, 1977, pg. 425) apresenta dados sobre taxas de octanagem de combustível para motor, de várias misturas de gasolina. 40 destes resultados são apresentados a seguir:
88,5 94,7 84,3 90,1 89 89,8 91,6 90,3 90 91,5
89,9 98,8 88,3 90,4 91,2 90,6 92,2 87,7 91,1 86,7 93,4 96,1 89,6 90,4 91,6 90,7 88,6 88,3 94,2 85,3
90,1 89,3 91,1 92,2 83,4 91 88,2 88,5 93,3 87,4
Extrair uma amostra sistemática de tamanho n = 6.
Utilize a tabela de números aleatórios: 1ª coluna, primeiro algarismo. OBS.: A numeração deverá ser feita por linha.
Distribuição de Freqüência Distribuição de Freqüência
Dados Brutos Dados Brutos
Após a coleta de dados é comum encontrá-los desordenados, ou seja, fora de alguma ordem. Por essa razão, costuma-se chamá-los de dados brutos.
Exemplo: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto:
43 45 49 47 52 45 51 46 44 48 51 50 52 44 48 50 49 50 46 46 49 49 51 50 49 Rol Rol
Quando tomamos os dados brutos e colocamos seus elementos em uma determinada ordem, crescente ou decrescente, obtemos um conjunto organizado denominado Rol. 43 44 44 45 45 46 46 46 47 48 48 49 49 49 49 49 50 50 50 50 51 51 51 52 52
Tabela de freqüência Tabela de freqüência
As tabelas de freqüências são representações nas quais os valores se apresentam em correspondência com suas repetições.
Uma das vantagens da tabela de freqüência é proporcionar uma rápida visualização dos dados. Também é possível calcular medidas com um menor número de cálculos.
A seguir apresentamos as tabelas de freqüências simples (não agrupadas em classes).
Distribuição de Freqüências de
Distribuição de Freqüências de Dados Tabulados Não-Agrupados em ClassesDados Tabulados Não-Agrupados em Classes
É uma tabela onde cada valor da variável aparece individualmente com sua respectiva freqüência, repetição. Esse tipo de apresentação é utilizado para representar uma variável discreta ou descontinua.
Exemplo: A tabela abaixo representa Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto:
Tabela 3: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto:
Temperatura Freqüência f j 43 1 44 2 45 2 46 3 47 1 48 2 49 5 50 4 51 3 52 2 25
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Distribuição de Freqüências de Dados Agrupados em Classes Distribuição de Freqüências de Dados Agrupados em Classes
Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado na ordenação de valores individuais, há vantagem em resumir os dados srcinais em uma distribuição, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes.
Para variáveis contínuas sempre usamos agrupar. Para variáveis discretas e número de valores representativos dessa variável muito grande também agrupamos.
Elementos de uma Distribuição de Freqüências
1) Freqüência Simples Absoluta: f j
É o número de observações correspondentes a essa classe ou a esse valor. A freqüência simples absoluta, ou simplesmente freqüência, é simbolizada por f j.
2) Amplitude Total: At
É a diferença entre o maior e o menor valor observado da variável em estudo.
3) Número de Classes
É cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável.
Uma classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice j)
O número de classes pode ser calculado usando a fórmula de Sturges:
k = 1 + 3,3 log10N
Onde
k = número de classes
N = número total de observações
O arredondamento de k é feito para o inteiro imediatamente superior.
4) Limites de classes
Os limites de classe são seus valores extremos.
a) Limite Inferior: É o valor mínimo de uma classe.
b) Limite Superior: É o valor máximo de uma classe. Este pode não pertencer à classe atual.
5) Amplitude do Intervalo de classe
Amplitude do intervalo de classe ou simplesmente intervalo de classe é o comprimento da classe, sendo geralmente definida como a diferença entre seus
6) Ponto médio de classe
O ponto médio ou valor médio é o valor que a representa, para efeito de cálculos de certas medidas. Na distribuição de freqüências com valores agrupados em classes, considera-se que os resultados incluídos em cada classe distribuem-se uniformemente por seu intervalo.
Exemplo 1: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto:
43 44 44 45 45 46 46 46 47 48 48 49 49 49 49 49 50 50 50 50 51 51 51 52 52 Amplitude total = 52 – 43 = 9 Número de classes: k = 1 + 3,3 x log 25 k = 1 + 3,3 x 1,3979 k = 5,61 k≅6
Amplitude do intervalo de classe: Ac = At/ k = 9 / 6 = 1,5
Obs: Devemos inicialmente testar se o limite superior da última classe é maior ou igual ao valor máximo. Para isto utilizamos a fórmula
Limite superior da última classe = mínimo + k. Ac
Caso o limite superior não seja maior ou igual ao valor máximo então devemos, como alternativa, fazer um arredondamento por excesso na amplitude de classe.
Tabela 4: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Tipos de freqüência
Frequência simples ( f j): é a freqüência de cada valor individual ou de cada
classe;
Frequênca acumulada simples ( F j): é a soma de todas as frequências simples
anteriores;
Frequência relativa simples (fr j): é o valor de cada freqüência simples dividido
pela soma das freqüências;
Frequênca acumulada relativa (Fr j): é a soma de todas as frequências
relativas simples anteriores;
temperatura f j 43,0 |--- 44,5 3 44,5 |--- 46,0 2 46,0 |--- 47,5 4 47,5 |--- 49,0 2 49,0 |--- 50,5 9 50,5 |---| 52,0 5 Total 25
Exemplo: Considere a tabela a seguir
Tabela 5: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto
temperatura f j Frequência acumulada simples F j Frequência relativa Simples fr j Frequência relativa Acumulada Fr j 43,0 |--- 44,5 3 3 0,12 0,12 44,5 |--- 46,0 2 5 0,08 0,20 46,0 |--- 47,5 4 9 0,16 0,36 47,5 |--- 49,0 2 11 0,08 0,44 49,0 |--- 50,5 9 20 0,36 0,80 50,5 |---| 52,0 5 25 0,20 1,00 Total 25 1,00
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
ROTEIRO PARA A ELABORAÇÃO DE UMA TABELA DE FREQÜÊNCIAS COM DADOS AGRUPADOS EM CLASSES
Para a construção de uma tabela de freqüências, é conveniente adotar-se um roteiro que, embora baseado em critérios relativamente arbitrários, facilita e torna operacional o trabalho de quem irá montar a tabela. O roteiro proposto consta dos seguintes passos:
a) Lista de dados brutos que pode ou não ser transformada em rol; b) Encontrar a amplitude total do conjunto de valores observados:
c) Calcular o número de classes (k) usando a fórmula de Sturges:
d) Determinar a amplitude do intervalo de classe.
Muitas vezes convém arredondar o número correspondente à amplitude do intervalo de classe a que se chegou para um número mais adequado, que facilite os cálculos.
e) Determinar os limites das classes, escolhendo-se preferencialmente, números inteiros.
f) Construir a tabela de freqüências.
Menor valor do conjunto Maior valor do conjunto
Manual para Normalização de Publicações Técnico – cientificas Manual para Normalização de Publicações Técnico – cientificas
Ed. UFMG Ed. UFMG
Tabelas de distribuição de freqüência
1) As tabelas devem ser dotadas de um título claro e conciso localizado acima delas. São numeradas seqüencialmente em todo o trabalho, com algarismos arábicos (1, 2, 3, ...), segundo normas do IBGE.
2) No cabeçalho de cada coluna indica-se o seu conteúdo. Os títulos das colunas podem ser datilografados verticalmente, se necessário, para economizar espaço.
3) Não se deve deixar nenhuma “casa” vazia no corpo da tabela, usando-se os símbolos, conforme convenção internacional:
- quando, pela natureza do fenômeno, o dado não existir Z quando o dado for rigorosamente zero
... quando não se dispuser do cálculo
4) Na construção de tabelas usam-se os seguintes traços:
a) traço duplo horizontal, limitando o quadro;
b) traço simples vertical, separando a coluna indicadora das demais e estas entre si; no corpo da tabela pode ser eliminado desde que o número de colunas seja pequeno e não haja prejuízo na leitura dos dados;
5) a tabela não deve ser fechada lateralmente, tampouco se colocam traços horizontais separando os dados numéricos.
Exercícios Exercícios
Para os exercícios 1 a 5 construa uma tabela de distribuição de freqüência simples.
1) As cifras abaixo representam os ganhos de 15 vendedores:
425 440 610 518 324
482 624 390 468 457
509 561 482 480 520
2) Dão-se a seguir os pesos, em libras, de 20 candidatos a empregos no corpo de bombeiros de uma cidade:
225 182 194 210 205 172 181 198 164 176
180 193 178 193 208 186 183 170 186 188
3) Os seguintes números de unidades de um produto foram completados em
determinados dia por 20 operários de uma fábrica de artigos de artesanato:
61 58 59 72 47 55 40 73 66 60
71 69 63 58 51 42 67 80 62 53
4) Uma auditoria em 60 faturas de venda revelou os seguintes números de erros na fixação de preços: 0 0 2 1 4 1 0 1 3 2 2 0 1 1 1 4 0 3 1 5 1 1 0 2 0 0 1 1 4 3 0 1 0 2 1 4 3 1 0 0 5 1 2 0 3 0 2 1 1 3 1 4 3 0 2 0 1 1 0 1
5) Dão-se, a seguir, os números de alarmes falsos(acionados acidentalmente ou por mau funcionamento do equipamento) recebidos em 30 dias por um serviço de monitoramento da segurança:
3 6 2 4 5 8 2 5 6 3
4 7 4 6 5 5 5 4 3 7
4 4 6 3 9 5 7 4 4 6
As questões de 6 a 11 são referentes à tabela a seguir. Ela se refere a notas de alunos, em uma prova de 30 pontos, de uma determinada escola.
6) O valor do limite superior da 4.ª classe é de:
a) ( ) 17; b) ( ) 18; c) ( ) 19; d) ( ) 20;
e) ( ) Nenhuma das alternativas acima.
7) O valor do limite inferior da 3.ª classe é de:
a) ( ) 13; b) ( ) 14; Notas f j 11 I--- 6 I--- 2 I--- 2 I--- 10 I--- 6 21 I--- 4 Total 30
c) ( ) 15; d) ( ) 16;
e) ( ) Nenhuma das alternativas acima.
8) O valor da freqüência acumulada simples da 5.ª classe é de:
a) ( ) 8; b) ( ) 10; c) ( ) 20; d) ( ) 26;
e) ( ) Nenhuma das alternativas acima.
9) O valor da freqüência relativa acumulada 4.ª classe é de:
a) ( ) 0,2000; b) ( ) 0,2667; c) ( ) 0,3333; d) ( ) 0,6667;
e) ( ) Nenhuma das alternativas acima.
10) Porcentagem dos alunos que tiraram abaixo de 50% da nota da prova é de: a) ( ) 20%;
b) ( ) 27%; c) ( ) 34%; d) ( ) 67%;
e) ( ) Nenhuma das alternativas acima.
11) A nota em que 66% dos alunos estão acima dela é de:
a) ( ) 15; b) ( ) 16; c) ( ) 17;
As questões de 12 a 15 são referentes à tabela a seguir. Ela se refere a pacientes internados no hospital X, localidade Y, no ano Z.
12) O valor do limite superior da 4.ª classe é de:
13) O valor do limite inferior da 3.ª classe é de:
14) O valor da freqüência acumulada simples da 5.ª classe é de:
15) O valor da freqüência relativa simples da 4.ª classe é de:
16) Os dados se referem aos pesos dos alunos de uma determinada escola:
60.5 60 70 47.4 60 57 52 47 55 50
55 58 54 66 58.5 63 73 95 39 54.5
72.8 47 58 85.2 49.2 52 56 84 75 50
80.9 57.8 68.5 54.5 48 49 58 60 55 71
55 58 63.5 52.5 51.6 59 87 73 49 86
Após construir uma tabela de distribuição de freqüência agrupada em classes, a freqüência simples da terceira classe é de:
Grupo etários (em anos) f j
20 |--- 1 |--- 3 |--- 5 |--- 6 |--- 4 70 |--- 1 Total 20
17) Os dados abaixo se referem aos pesos dos alunos de uma determinada escola: 60.5 60 70 47.4 60 57 52 47 55 50 55 58 54 66 58.5 63 73 95 44 54.5 72.8 47 58 85.2 49.2 52 56 84 75 50 80.9 57.8 68.5 54.5 48 49 58 60 55 71 55 58 63.5 52.5 51.6 59 87 73 49 86
Siga os passos para a construção de uma tabela de distribuição de freqüência com dados agrupados:
a) Determine a amplitude total
b) Determine a amplitude de classe
c) Construa a tabela usando 7 classes
d) Inclua na tabela as freqüências relativas simples
e) Inclua na tabela as freqüências acumuladas (abaixo de) simples
f) Inclua na tabela as freqüências acumuladas (abaixo de) relativas
18) Com relação à tabela de distribuição de freqüência agrupada acima responda:
a) Quantos alunos pesam até 69 kg?
b) Quantos alunos pesam mais de 76 kg?
19) Uma importante característica de qualidade da água é a concentração de material sólido suspenso. Em seguida, são apresentadas 60 medidas de sólidos suspensos de um certo lago. Os dados são do livro Estatística Aplicada e Probabilidade para Engenheiros.
42,4 54,3 56,3 65,7 54 43,3 29,8 73,1 57,4 58,7 81,3 45,3 52,1 59,9 80,1 55,8 56,9 49,7 57 62,2 42,8 68,7 69,9 42,4 67,3 66,9 59,6 67,3 59 65,8 61,4 42,6 61,4 64 77,4 73,1 64,2 54,7 77,3 72,6 57,1 48,5 72,5 77,3 89,8 46,1 39,3 50,7 53,1 76,4 52 56,1 59,3 59,6 67,2 51,1 66,1 70,7 73,8 31,6
Com o objetivo de construir uma tabela de distribuição de frequência agrupada em classes calcule:
a) Valor mínimo e máximo; b) Amplitude total;
c) Número de classes; d) Amplitude de classes;
e) Construa a tabela apresentando as frequência simples e relativa simples. Considere log 60 = 1,7782
Medidas de Tendência Central. Medidas de Tendência Central.
As medidas de tendência central têm por objetivo localizar o centro dos dados. Estas medidas são: média, mediana e moda.
Em muitos casos estas medidas são diferentes, mas elas também podem ser iguais.
Nesta apostila adotamos, didaticamente, dois casos para o cálculo destas medidas: quando os dados são brutos ou estão em tabela de distribuição simples e quando os dados estão em tabela de distribuição agrupada em classes.
Dados brutos Dados brutos
1) Média Aritmética Simples
A média aritmética simples, amostral, de um conjunto de n observações
n x x x1, 2,L, é definida por n x x n i i
∑
= = 1A média aritmética simples, populacional, de um conjunto de observações
N x x x1, 2,L, é definida por N x N i i
∑
= = 1 µExemplo: Os dados a seguir representam as temperaturas (em ºF) em que ocorrem uma deflexão, devido à carga, em uma amostra de 10 tubos plásticos idênticos.
206 188 205 187 194 193 207 185 189 213
Qual a média aritmética? Solução: A média será
7 , 196 10 967 . 1 10 213 189 185 207 193 194 187 205 188 206 1 = = + + + + + + + + + = =
∑
= x x x n x x n i i 2) Mediana: MdMdPara evitar a possibilidade de sermos enganados por valores muito pequenos ou muito grandes, ocasionalmente descrevemos o “meio” ou “centro”de um conjunto de dados com outras medidas estatísticas que não a média. Uma dessas medidas, a MEDIANA den valores, exige que os ordenemos, e se define como:
O valor do elemento do meio sen é ímpar, ou a média aritmética dos dois valores do meio sen é par.
Assim dizemos que a mediana é o valor do 2
1
Exemplo: Os dados a seguir representam as temperaturas (em ºF) em que ocorrem uma deflexão, devido à carga, em uma amostra de 10 tubos plásticos idênticos.
206 188 205 187 194 193 207 185 189 213
Qual a mediana?
Solução: Ordenando os elementos temos:
185 187 188 189 193 194 205 206 207 213
Como temos 10 elementos, número par, a mediana será a média aritmética dos dois
elementos centrais. Logo a mediana é 193,5
2 194 193 = + = Md .
Exemplo 2: Em algumas áreas, as pessoas autuadas por certas infrações leves de tráfego podem freqüentar um curso de direção defensiva em lugar de pagar uma multa. Se 11 desses cursos foram freqüentados por
40 32 37 30 24 40 38 35 40 28 32
Cidadãos. Qual a mediana?
Solução: Ordenando os elementos temos:
24 28 30 32 32 35 37 38 40 40 40
Como temos 11 elementos, número ímpar, a mediana será o valor do elemento
central. A posição central é o 6º elemento, 6
2 1 11 = + =
Posição . Logo a mediana será 35.
3) Moda: Mo
É o valor que ocorre com maior freqüência e mais de uma vez.
Exemplo: Vinte reuniões de um clube de dança tiveram as seguintes freqüências de seus membros
26 25 28 23 25 24 24 21 23 26 28 26 24 32 25 27 24 23 24 22
Qual a moda?
Solução: A moda vale 24, pois ocorre 5 vezes.
Observação
Observação: A moda é raramente utilizada em inferência estatística pelo fato de nem sempre existir (o que ocorre quando não há dois valores iguais) ou de, eventualmente, não ser única.
Exemplo: Os dados a seguir referem-se a quantidade de pessoas que assistiram a 6 sessões de um filme no cinema:
121 133 121 133 114 141
Qual o número modal de pessoas que assistiram ao filme?
Solução: Temos que os números 121 e 133 repetem, ambos, duas vezes. Portanto a moda não é única. Logo as modas são 121 e 133.
Dados em tabela de distribuição
Dados em tabela de distribuição de freqüênciade freqüência
Considere:
x i o ponto médio da classei , f i a freqüência da classei , k a quantidade de classe. 1) Média aritmética
A média aritmética é definida por:
∑
∑
= = = k i i k i i i f f x x 1 1.
OBS.: OBS.: Caso tenhamos uma tabela de distribuição agrupada em Caso tenhamos uma tabela de distribuição agrupada em classes, o valor declasses, o valor de xxiiserá o ponto médio da classe.será o ponto médio da classe.
Exemplo: A tabela abaixo representa o número de defeitos por peça.
Tabela: Número de defeitos por peça
Número de defeitos (xi) Freqüência f j 0 5 1 10 2 18 3 12 4 5 50 Fonte: Referência bibliográfica [1]
Calcule número médio de defeitos.
Solução: Preenchemos a tabela com os valores necessários
Número de defeitos (xi) Freqüência fi Xifi 0 5 0 1 10 10 2 18 36 3 12 36 4 5 20 50 102 A média será 0 , 2 50 102 . 1 1 = = =
∑
∑
= = k i i k i i i f f x xExemplo: A tabela abaixo representa as temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto.
Tabela 5: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Calcule a temperatura média.
Solução: Preenchemos a tabela com os valores necessários
A temperatura média será
37 , 48 25 25 , 209 . 1 . 1 = = =
∑
∑
= k k i i i f f x x temperatura f j 43,0 |--- 44,5 3 44,5 |--- 46,0 2 46,0 |--- 47,5 4 47,5 |--- 49,0 2 49,0 |--- 50,5 9 50,5 |---| 52,0 5 Total 25 temperatura f j x j x j f j 43,0 |--- 44,5 3 43,75 131,25 44,5 |--- 46,0 2 45,25 90,50 46,0 |--- 47,5 4 46,75 187,00 47,5 |--- 49,0 2 48,25 96,50 49,0 |--- 50,5 9 49,75 447,75 50,5 |---| 52,0 5 51,25 256,25 Total 25 1.209,252) Mediana
Se tivermos uma tabela de distribuição de freqüência simples, então podemos proceder como no caso dos dados estarem na forma bruta.
Exemplo: A tabela abaixo representa o número de defeitos por peça.
Tabela: Número de defeitos por peça
Número de defeitos (xi) Freqüência fi 0 5 1 10 2 18 3 12 4 5 50 Fonte: Referência bibliográfica [1]
Qual o número mediano de defeito?
Solução: Como temos 50 elementos, o valor mediano deverá ser a média dos dois elementos centrais. Neste caso os dois elementos centrais são os elementos de
posição 25º e 26º, 2 2 2 2 = +
. Assim o número mediano de defeito é 2.
Para uma distribuição de freqüência agrupada em classes, a mediana é tal que metade da área total dos retângulos do histograma da distribuição está à sua esquerda, e a outra metade está à sua direita.
De modo geral podemos calcular a mediana por:
h F f 2 n L x~ Md ⋅ − + = =
∑
onde
L: é o limite inferior da classe em que a mediana deve estar. F: é a freqüência da classe mediana
h: o intervalo de classe
n: é o número de elementos ou tamanho da amostra
∑
f : soma das frequência anteriore s à classe da medianaExemplo: A tabela abaixo representa as temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto.
Calcule a temperatura média.
Tabela 5: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto
Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2]
Qual o valor da temperatura mediana?
Solução: Como temos 25 elementos, o valor mediano deverá estar no º 5 , 12 2 25 = elemento.
Assim 3 + 2 + 4 + 2 = 11 e 3 + 2 + 4 + 2 + 9 = 20. A mediana estará na 5.ª classe. Usando a fórmula temos:
temperatura f i 43,0 |--- 44,5 3 44,5 |--- 46,0 2 46,0 |--- 47,5 4 47,5 |--- 49,0 2 49,0 |--- 50,5 9 50,5 |---| 52,0 5 Total 25