“Para criar uma filosofia só é preciso renunciar à metafísica e tornar-se apenas um bom matemático.” (Bertrand Russel) “UMA VERDADE MATEMÁTICA NÃO É SIMPLES NEM COMPLICADA POR SI MESMA. É UMA VERDADE.” (EMILE LEMOINE)
D I S T R I B U I Ç Ã O N O R M A L
A distribuição normal é a mais importante das distribuições, pois muitas variáveis aleatórias de ocorrência natural ou de processos práticos obedecem a esta distribuição, a qual é representada por uma curva em forma de sino, sendo também conhecida como curva de Gauss.
Inicialmente, supunha-se que todos os fenômenos da vida real devessem ajustar-se a uma curva em forma de sino; caso contrário, suspeitava-se de alguma anormalidade no processo de coleta de dados. Daí a designação de curva normal.
Inúmeras variáveis contínuas que descrevem fenômenos naturais e sociais apresentam distribuições de probabilidades próximas da distribuição normal, por isso ela é a distribuição de probabilidades mais utilizada.
Ao representarmos de forma gráfica (histograma) um conjunto de dados quantitativos de uma distribuição simétrica, chamada Normal ou Gaussiana, a maioria dos dados se encontra próximo de um determinado valor central (média, moda ou mediana), os demais dados se distribuem igualmente afastando-se dos valores centrais.
Por exemplo: segue abaixo a tabela de distribuição de frequências e o histograma das notas obtidas em uma prova de estatística, por 118 alunos.
nota nº de alunos (f) 0 ├ 1 4 1 ├ 2 7 2 ├ 3 10 3 ├ 4 13 4 ├ 5 19 5 ├ 6 22 6 ├ 7 27 7 ├ 8 8 8 ├ 9 4 9├┤10 4 Total 118
Ao desenharmos o polígono de frequências, observamos que o mesmo se ajusta a uma curva normal.
Curva Normal
Características gerais da curva Gaussiana:
_ O gráfico da distribuição normal é uma curva em forma de sino, simétrica em torno da média µ; _ A área total da curva vale 1 ou 100%, porque corresponde à probabilidade de a variável aleatória assumir qualquer valor real;
_ Como a curva é simétrica em torno da média, os valores maiores do que a média e os valores menores do que a média têm a mesma probabilidade de ocorrer;
_ A configuração da curva é dada por dois parâmetros: a média, µ, e o desvio padrão, σ;
_ É uma curva unimodal (só uma moda) onde a moda, a mediana e a média tem o mesmo valor; _ A curva normal aproxima-se mais do eixo x à medida que se afasta da média em ambos os lados, mas nunca toca o eixo.
Valores padronizados na curva de Gauss: todas as curvas normais representativas de distribuições de frequências podem ser transformadas em uma curva normal padrão (com valores padronizados z). A Distribuição Normal Padrão é caracterizada por média igual a zero (µ = 0) e desvio padrão igual a 1 (σ = 1).
Quando empregada para descrever a distribuição de dados, a curva normal descreve de que maneira, ao fazermos muitas observações, os dados se localizam ao redor da média, que é representada pelo pico da curva. Além disso, como a curva descende simetricamente de cada lado, ela descreve o modo como o número de observações diminui igualmente acima e abaixo da média, a princípio mais abruptamente, depois de maneira menos drástica. Nos dados que seguem a distribuição normal, cerca de 68% (aproximadamente 2/3) das observações cairão a menos de 1 desvio padrão da média, cerca de 95% cairão a menos de 2 desvios padrão, e 99,7% a menos de 3 desvios padrão.
A curva varia no eixo z desde -4 até +4, ou seja, de menos 4 desvios padrões da média até mais 4 desvios padrões da média. É estatisticamente impossível ocorrer algo que diste mais do que 4 vezes o desvio padrão da média.
Os pesquisadores usam o termo “margem de erro” para descrever essa incerteza. Quando dizem aos meios de comunicação que a margem de erro de uma pesquisa é de 5% para mais ou para menos, o que estão dizendo é que, se repetissem a pesquisa uma grande quantidade de vezes, em 19 de cada 20 pesquisas (95%) o resultado estaria a menos de 5% do valor correto, embora raramente mencionem o fato, isso também significa, naturalmente, que aproximadamente 1 de cada 20 pesquisas terá um resultado amplamente impreciso. Como regra, uma amostra de 100 gera uma margem de erro grande demais para a maioria dos propósitos. Uma amostra de mil, por outro lado, costuma gerar uma margem de erro próxima de 3%, que é suficiente para a maior parte das finalidades.
Cálculo da Distribuição Normal: Qualquer conjunto de valores x, normalmente distribuídos, pode ser convertido em valores normais padronizados z pelo uso da fórmula:
Na fórmula acima, o desvio padrão populacional σ, pode ser substituído pelo amostral s.
A tabela acima mostra os valores da metade positiva da curva. Os valores negativos são obtidos por simetria.
Exemplo 1: Segundo um fabricante, a vida útil média de um tipo de lâmpada que ele produz é µ = 2.000 horas, com desvio padrão de σ = 200 horas. Qual é a probabilidade de que uma dessas lâmpadas, escolhida aleatoriamente, dure entre 2.000 e 2.400 horas?
Para x = 2000, temos: 𝑧 =𝑥 − 𝜇 𝜎 = 2000 − 2000 200 = 0 Para x = 2400, temos: 𝑧 =𝑥 − 𝜇 𝜎 = 2400 − 2000 200 = 2
A figura acima retrata a curva de probabilidade (função densidade) para esse problema e indica, também, a relação entre a escala de horas x e a escala da normal padronizada z.
Após calcularmos os valores de z (0 e 2), devemos consultar uma tabela de distribuição normal reduzida, que mostra o lado direito da curva, ou seja, metade da curva, onde encontramos para z = 2 o valor de 0,4772 (21ª linha e 1ª coluna), esse valor corresponde a área da curva compreendida entre 0 e 2. Logo, podemos dizer que 47,72% das lâmpadas irão durar entre 2000 e 2400 horas. Nesse exemplo, como a área da curva corresponde a exatamente dois desvios a partir da média, não era necessário o uso da fórmula.
Exemplo 2: Com os dados do exemplo anterior, qual é a probabilidade de que uma dessas lâmpadas, escolhida aleatoriamente, dure mais do que 2200 horas?
Deseja-se a área da curva após o +1. O ponto em que z = 0 corresponde à metade da curva normal. Logo, a área à direita da média é igual a 50% da área total. Portanto se determinarmos a área entre 0 e +1, podemos subtrair esse valor de 50% (0,5) para obtermos a probabilidade de que as x horas sejam maiores do que 2200. Consultando uma tabela de distribuição normal reduzida, que mostra o lado direito da curva, ou seja, metade da curva, onde encontramos para z = 1 o valor de 0,3413 (11ª linha e 1ª coluna), esse valor corresponde a área da curva compreendida entre 0 e +1, como queremos a área após o +1, fazemos a subtração (0,5 – 0,3413) encontrando o valor 0,1587. Assim a probabilidade da lâmpada durar mais de 2200 horas é de 15,87%.
Exemplo 3: Os pesos dos alunos de determinada escola têm uma distribuição normal, com média de 50
kg e desvio-padrão de 5 kg. Qual é a porcentagem de alunos dessa escola com peso entre 48 kg e 58 kg?
Para x = 48, temos: 𝑧 =𝑥 − 𝜇 𝜎 = 48 − 50 5 = −0,4 Para x = 58, temos: 𝑧 =𝑥 − 𝜇 𝜎 = 58 − 50 5 = 1,6
Estamos interessados em saber o percentual abaixo da curva entre os valores z = –0,4 e z = 1,6.
Consultando a Tabela Normal, encontramos o valor 0,1554 para z = 0,4 (por simetria é igual ao valor z = – 0,4) e o valor 0,4452 para z = 1,6. Logo, somando os dois intervalos temos: 0,1554 + 0,4452 = 0,6006 =
60,06% dos alunos pesam entre 48 kg e 58 kg.
Exemplo 4: A vida média da bateria tipo I da empresa “Dura Mais” é distribuída normalmente com
uma média de 600 dias e desvio padrão de 75 dias. Qual a probabilidade de uma bateria retirada ao acaso da produção desta empresa durar: menos de 450 dias?
𝑧 = 450 − 600
75 = −2
Valor na tabela: 0,4772
P(menos de 450 dias) = 0,5 - 0,4772 = 2,28%
Exemplo 5: Em um exame de estatística, a média foi 7,8 e o desvio padrão foi 1. Determine as notas cujos
escores padronizados (ou variáveis normais padronizadas) foram z = - 0,6 e z = 1,2. Para z = - 0,6, o correspondente grau (nota “x”) é
𝑧 =𝑥 − 𝜇
𝜎 → −0,6 =
𝑥 − 7,8
1,0 → 𝑥 = 7,2
Para z = 1,2, o grau correspondente (nota “x”) é
𝑧 = 𝑥 − 𝜇
𝜎 → 1,2 =
𝑥 − 7,8
1,0 → 𝑥 = 9,0
Exemplo 6: Segundo o manual de instruções, o tempo de montagem de certo produto é normalmente
distribuído, com uma média de 4 horas e um desvio padrão de 0,5 horas. Determine o intervalo no qual caem 95% dos tempos de montagem.
Queremos o intervalo de 95% da curva, em torno da média, como a média divide a curva ao meio, dividimos 95% por 2, obtendo 47,5% = 0,475 de cada lado da média. A tabela normal reduzida mostra apenas o lado direito da curva (metade da curva), procurando o valor 0,475 no corpo da tabela, obtemos z = 1,96, para o lado direito da curva e, por simetria, obtemos o valor -1,96 para o lado esquerdo da curva, substituindo na fórmula, temos:
Para z = - 1,96: 𝑧 =𝑥 − 𝜇 𝜎 → −1,96 = 𝑥 − 4 0,5 → 𝑥 = 3,02 Para z = 1,96: 𝑧 =𝑥 − 𝜇 𝜎 → 1,96 = 𝑥 − 4 0,5 → 𝑥 = 4,98
Ou seja, 95% das montagens, gastam, aproximadamente, entre 3 e 5 horas.
E X E R C Í C I O S P R O P O S T O S
1) Segundo o manual de instruções, o tempo de montagem de certo produto é normalmente distribuído, com uma média de 4,2 horas e um desvio padrão de 0,3 horas. Determine o percentual de montagens que estão entre os tempos de 3,6 e 4,8 horas. 95,44%
2) Numa empresa, sabe-se que os salários anuais estão normalmente distribuídos com média R$ 20.000,00 e desvio padrão de R$ 4.000,00. Determine a probabilidade de um funcionário, escolhido aleatoriamente, ter um salário anual situado entre R$16.000,00 e R$24.000,00. 68,26% 3) O tempo semanal que um estudante utiliza o laboratório de computação está normalmente distribuído, com uma média de 6,2 horas e um desvio padrão de 0,9 horas. Você é o responsável pelo planejamento da agenda para o laboratório de computação. De um total de 2.000 alunos, calcule o número de estudantes que usarão o laboratório durante um determinado número de horas:
a) Menos de 5,3 horas. 317,4 alunos
b) Entre 5,3 horas e 7,1 horas. 1365,2 alunos c) Mais de 7,1 horas. 317,4 alunos
4) A duração de um pneu está normalmente distribuída com uma média de 48.000 quilômetros e um desvio padrão de 3.200 quilômetros. Estime a probabilidade de que o tempo de vida do pneu esteja entre 48.000 e 54.400 quilômetros. 47,72%
5) Um levantamento indica que, a cada ida ao supermercado, um comprador gasta uma média de 45 minutos com um desvio padrão de 12 minutos. O período gasto no supermercado é normalmente distribuído. Um comprador entra no supermercado. Obtenha a probabilidade de que o comprador:
a) fique no supermercado entre 24 e 54 minutos. 73,33%
b) fique mais do que 39 minutos no supermercado. 69,15%
c) Se 200 compradores entram no supermercado, quantos você espera que estejam em seu interior durante cada um dos intervalos de tempo das letras a) e b)? Aproximadamente a)147 compradores ; b) 138 compradores)
6) O número de horas semanais que os adultos norte-americanos gastam em frente ao computador em casa é normalmente distribuído, com média de cinco horas e desvio padrão de uma hora. Um adulto é selecionado ao acaso nos Estados Unidos. Obtenha a probabilidade de que:
a) o número de horas gastas no computador pelo adulto seja inferior a 2,5 horas semanais. 0,62%
b) o número de horas gastas no computador pelo adulto esteja entre 2,5 e 7,5 horas semanais.
98,76%
c) o número de horas gastas no computador pelo adulto seja superior a 7,5 horas semanais.
0,62%
d) Se 150 adultos norte-americanos são selecionados ao acaso, quantos você espera que afirmem que gastam menos de três horas semanais em um computador doméstico?