• Nenhum resultado encontrado

06-ApostilaCap6-MaterialOpcional

N/A
N/A
Protected

Academic year: 2021

Share "06-ApostilaCap6-MaterialOpcional"

Copied!
9
0
0

Texto

(1)

Capítulo 6 Inferência Estatística 6.1 - Introdução

A busca de informações a respeito de um fenômeno qualquer é necessária para dar suporte à tomada de decisões que envolvem este fenômeno em particular. Quando este fenômeno é aleatório, a busca de informações é direcionada para estabelecer a forma da distribuição da variável que descreve o fenômeno e os parâmetros desta distribuição.

Como já discutido anteriormente, há dois processos de abordagem para a solução deste problema. O primeiro consiste em aplicar um censo, o que identifica diretamente a forma da distribuição da variável e seus parâmetros. O segundo processo, consiste em obter estas informações indiretamente, através da inferência.

O objetivo da inferência estatística é o de conhecer populações utilizando informações amostrais. Como as populações são caracterizadas por medidas numéricas descritivas, denominadas parâmetros, a estatística diz respeito à realização de inferências sobre estes parâmetros populacionais desconhecidos. Parâmetros populacionais típicos são a média (µ) e o desvio padrão (σ). Os métodos para realizar inferências a respeito dos parâmetros pertencem a duas categorias:

1) Estimação: determinação de estimativas dos parâmetros populacionais;

2) Testes de Hipóteses: tomada de decisão relativa ao valor de um parâmetro populacional.

6.2 - Estimação

A estimação é um processo que consiste em avaliar os parâmetros de uma distribuição utilizando estimadores obtidos em uma amostra. O cálculo de probabilidades é o instrumento que viabiliza a avaliação dos parâmetros de uma distribuição a partir dos estimadores.

Há inúmeras aplicações da estimação. Os políticos, por exemplo, costumam estimar proporções de seus eleitores relacionando pontos de vista sociais e econômicos. As indústrias devem continuamente estimar a porcentagem de defeituosas num lote de peças. As características de bom desempenho de um produto devem ser avaliadas levando em conta considerações como resistência média, peso, vida, etc. As grandes livrarias devem prever a procura de seus produtos. A avaliação de inventários, a estimação do custo de projetos, a avaliação de novas fontes de energia, previsões sobre a realização de empreendimentos, estimativas de tempo médio de execução e muitas outras.

A qualidade de uma estimação depende basicamente da representatividade da amostra, que por sua vez consiste na capacidade da amostra reproduzir características importantes da população. Populações com pequeno grau de variabilidade de seus elementos podem ser estudadas a partir de pequenas amostras. A medida que esta variabilidade aumenta, é necessário aumentar o tamanho da amostra.

O parâmetro populacional (por exemplo, a média µ) é constante (embora normalmente seja desconhecido) seu valor não se altera de amostra para amostra. Contudo, o valor de urna amostra (por exemplo, a média

x

) é dependente da amostra selecionada, sendo que cada amostra revelará um valor diferente de

x

. Como os valores do estimador variam de amostra para amostra e a inferência estatística baseia-se neste estimador, necessita-se conhecer como se dá a distribuição de probabilidade do estimador.

Conhecida a distribuição de probabilidade do estimador, tem-se condições de avaliar o grau de incerteza das inferências estatísticas realizadas a partir de amostras aleatórias selecionadas da população em estudo. Assim a distribuição amostral de um estimador é obtida, empiricamente, pela distribuição de freqüências dos valores de estimadores das amostras aleatórias de tamanho "n", selecionadas da população.

(2)

6.2.1 - Distribuição Amostral das Médias

Considere a seguinte população "x": {1, 2, 3, 4, 5, 6}. Esta população apresenta os seguintes parâmetros:

µ = 3,5 σ(x) = 1,708 σ2(x) = 2,917

Selecionando todas as amostras de tamanho 2 (n = 2), que são possíveis de obter com reposição: A1 = (1 , 1) A2 = (1 , 2) A3 = (1 , 3) A4 = (1 , 4) A5 = (1 , 5) A6 = (1 , 6) A7 = (2 , 2) A8 = (2 , 3) A9 = (2 , 4) A10 = (2 , 5) A11 = (2 , 6) A12 = (3 , 3) A13 = (3 , 4) A14 = (3 , 5) A15 = (3 , 6) A16 = (4 , 4) A17 = (4 , 5) A18 = (4 , 6) A19 = (5 , 5) A20 = (5 , 6) A21 = (6 , 6)

Cada uma destas amostras admite um valor médio, que vale, respectivamente:

6

5

,

5

5

5

5

,

4

4

5

,

4

4

5

,

3

3

4

5

,

3

3

5

,

2

2

5

,

3

3

5

,

2

2

5

,

1

1

21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

=

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

x

Esta distribuição apresenta os seguintes parâmetros:

1,291

)

x

(

σ

1,667

)

x

(

σ

3,5

x

=

2

=

=

Através deste exemplo numérico é possível verificar que a média das médias amostrais é igual à média populacional.

x

µ =

Quando a população é muito grande ou infinita, a variância e o desvio padrão da distribuição das médias amostrais será:

amostrais)

médias

das

padrão

(desvio

n

σ(x)

)

x

σ(

amostrais)

médias

das

(variância

n

(x)

σ

)

x

(

σ

2 2

=

=

6.2.2 - Estimativas Pontuais e Intervalares

As estatísticas amostrais são utilizadas como estimadores de parâmetros populacionais. Assim, uma média amostral é usada como estimativa de uma média populacional; um desvio padrão amostral serve de estimativa do desvio padrão da população. Tais estimativas chamam-se estimativas pontuais, porque originam uma única estimativa do parâmetro. Mas já é sabido que a amostragem aleatória apresenta tendência a gerar amostras em que a média amostral, por exemplo, não é igual à média da população, embora os dois valores em geral sejam próximos. Em virtude da variabilidade amostral, é usual incluir uma "estimativa intervalar" para acompanhar a estimativa pontual. Essa nova estimativa proporciona um intervalo de possíveis valores do parâmetro populacional.

A capacidade de estimar parâmetros populacionais por meio de dados amostrais está ligada diretamente ao conhecimento da distribuição amostral do parâmetro que está sendo usado como estimador. Pode-se encarar a estatística amostral como uma observação daquela distribuição amostral. Por exemplo, ao extrair-se uma amostra de alunos graduados, observa-se que a idade média é 24,2 anos. Sabe-se que este é um dos valores da distribuição amostral, mas a questão é: qual deles? Isto é, quão próximo está 24,2 da média da população?

(3)

Ao formular a resposta a esta pergunta, deve-se levar em conta as características da distribuição amostral. A distribuição das médias amostrais é normal ou aproximadamente normal em muitos casos. Sabe-se então, que cerca de 68% da estatística amostral está a menos de 1,00 desvio padrão de cada lado da média da distribuição amostral (que é igual à média da população) e 95% das médias amostrais estarão dentro de 1,96 desvios padrões a contar da média. Da mesma forma, sabemos que 32% das médias amostrais possíveis estarão além de 1 desvio padrão a contar da média (1,00-0,68) e que cerca de 5% das médias amostrais estarão a mais de 1,96 desvios padrões além da média. Consequentemente, se afirma-se que a média de uma amostra está a menos 1,96 desvios padrões a contar da média verdadeira, pode-se esperar estar certos 95% das vezes e errados 5% das vezes. Tal intervalo é chamado "intervalo de confiança", e o "nível de confiança" é 1 - P(erro). Logo, um intervalo de confiança de 95% leva consigo um risco de 5% de erro.

6.2.3 - Intervalo de confiança para a média populacional quando o desvio padrão é conhecido

Quando o desvio padrão populacional é conhecido as estimativas pontual e intervalar da média populacional são:

Estimativa Pontual:

µ

x

=

x

; Estimativa Intervalar:

x

Z

σ

x

<

µ

<

x

+

Z

σ

x. em que: n σ σ x x =

A Figura 6.1 ilustra como se constrói o intervalo de confiança com a média amostral como ponto médio.

Figura 6.1 - O intervalo de confiança tem centro na média amostral

A estimativa intervalar da média populacional se baseia na hipótese de que a distribuição amostral das médias amostrais é normal. Para grandes amostras isto não apresenta dificuldade especial. No entanto, para amostras menores que 30 observações, é importante saber que a população submetida a amostragem tem distribuição normal, ou ao menos aproximadamente normal. De outra forma essas técnicas não podem ser utilizadas.

Exemplo: Construir alguns intervalos de confiança com níveis de confiança de 90%, 95% e 99%, para a idade média dos estudantes graduados usando a média amostral de 24,2 anos. Sabe-se que o tamanho da amostra é 36 e o desvio padrão populacional é 3,0.

Nível de Z Fórmula Cálculo Intervalo de

Confiança Confiança 90% 1,65 n σ 1,65 x± x

36

3

1,65

24,2

±

23,375 a 25,025 95% 1,96 n σ 1,96 x± x

36

3

1,96

24,2

±

23,220 a 25,180 99% 2,58 n σ ,58 2 x± x

36

3

,58

2

24,2

±

23,110 a 25,690

(4)

6.2.4 - Erro de Estimação

O intervalo de confiança é um intervalo real, centrado na estimativa pontual que deverá conter o parâmetro com determinada probabilidade. A probabilidade do intervalo conter o parâmetro estimado é denominado de "nível de confiança" associado ao intervalo. A notação mais usual para o nível de confiança associado ao intervalo é (1 - α) ou (1 - P(erro)). Como diferentes amostras conduzem normalmente a valores diferentes dos estimadores, faz sentido pensar-se na diferença entre o valor do estimador e o parâmetro. Essa diferença é denominada "erro padrão de estimativa" (e):

parâmetro

estimativa

e

=

O nível de confiança e o erro padrão de estimativa caracteriza a precisão de uma estimativa. Nas aplicações é usual fixar-se o nível de confiança de um intervalo. Neste caso, o controle da precisão resume-se na determinação do erro padrão de estimativa.

Como visto anteriormente, para transformar uma distribuição normal "x" na distribuição normal padrão "Z" utiliza-se a mudança de variável:

(x) (x) σ µ x Z= −

Como no momento está-se interessado na distribuição amostral das médias

x

. A transformação da distribuição

x

na distribuição normal padrão "Z", por analogia com o caso anterior, será: ) x (

σ

x

x

Z

=

Como

x

=

µ

e

n

σ

σ

(x) ) x

(

=

, a expressão anterior fica:

n

σ

µ

x

Z

(x)

=

O nível de confiança é a probabilidade do intervalo conter o parâmetro estimado. Em termos da variável normal padrão Z, isto representa a área central sob a curva normal entre os pontos Z e Z . 2 α 2 α −

Figura 6.2 - Representação do intervalo de confiança utilizando distribuição normal. Portanto: P( Z Z Z ) 1 α 2 α 2 α < < = − −

(5)

Substituindo-se nesta expressão o valor de Z por:

n

σ

µ

x

Z

(x)

=

Obtém-se:

Z

)

1

α

n

σ

µ

x

Z

P(

2 α (x) 2 α

<

=

<

α 1 ) n σ Z µ x n σ Z P( (x) 2 α (x) 2 α ⋅ < − < ⋅ = − − α 1 ) n σ Z x µ n σ Z x P( (x) 2 α (x) 2 α ⋅ < < + ⋅ = − −

Esta é a expressão final do intervalo de confiança para uma estimativa da média populacional. Note que esta expressão pressupõe o conhecimento do desvio-padrão populacional σ(x), e que a amostragem foi obtida com reposição.

Além disso, é interessante salientar que:

n

σ

Z

(x)

2

α

representa o erro padrão de estimativa,

isto é, e=

n

σ

Z

(x)

2

α

e que os limites dos intervalos são estabelecidos pelos valores: (estimativa - erro

; estimativa + erro)

Resumindo: O erro num intervalo de estimação diz respeito ao desvio (diferença) entre a média amostral e a verdadeira média da população. Como o intervalo de confiança tem centro na média amostral, o erro máximo provável é igual à metade da amplitude do intervalo. Logo, o intervalo

n σ Z x n σ Z x < < x −

pode ser escrito como:

erro

<

x

<

+

erro

Portanto:

n

σ

Z erro= x

A Figura 6.3 apresenta o intervalo de confiança em termos do erro.

Figura 6.3 - Ilustração do erro que é metade da amplitude do intervalo de confiança.

Exercício:

1) O departamento de recursos humanos de uma grande empresa informa que o tempo de execução de tarefas que envolvem participação manual varia de tarefa para tarefa, mas que o desvio-padrão permanece aproximadamente constante em 5 minutos. Uma nova tarefa está sendo implantada na empresa. Uma amostra aleatória do tempo de execução de 60 destas novas tarefas forneceu o valor médio de 18 minutos. Determine um intervalo de confiança de 93% para o tempo médio de execução desta nova tarefa. Resposta: P(16,832 ≤ µ ≤ 18,168) = 0,93

(6)

6.2.5 - Determinação do tamanho da amostra

Normalmente, quando faz-se um estudo estatístico, uma das dúvidas mais freqüentes é qual o tamanho da amostra deve-se utilizar. Para responder esta questão utiliza-se a expressão do erro isolando a variável "n":

2 x x x

erro

σ

Z

n

erro

σ

Z

n

n

σ

Z

erro

=

=

=

Logo, o tamanho da amostra necessária dependerá: (1) do nível de confiança desejado;

(2) do valor da dispersão entre os valores individuais da população; (3) do valor de erro tolerável.

Exemplo: Que tamanho de amostra será necessário para produzir um intervalo de 90% de confiança para a verdadeira média populacional, com erro de 1,0 em qualquer dos sentidos, se o desvio padrão da população é 10,0?

Se o nível de confiança é 95%, então Z=1,65. Desta forma:

( )

16,5

272,25

273

1,0

10,0

1,65

erro

σ

Z

n

2 2 x

=

=

=

=

Nota-se que, ao resolver em relação a "n", sempre arredonda-se a resposta para o próximo inteiro superior.

Até agora a investigação da estimação de médias populacionais tem focalizado exclusivamente situações em que o desvio padrão populacional é conhecido. Na prática, é mais comum encontrar situações em que a dispersão da população não é conhecida. Uma conseqüência do desconhecimento do desvio padrão da população é que a distribuição normal já não é a distribuição adequada.

6.2.6 - Fator de correção

A expressão do intervalo de confiança para a média foi estabelecido, até o momento, considerando-se a obtenção da amostra com reposição. Entretanto, em algumas situações, como o caso em que a avaliação do elemento amostral é um teste destrutivo, é inviável a reposição deste elemento. A conseqüência da não reposição do elemento na população, antes da seleção do próximo elemento, praticamente não altera a probabilidade da seleção deste elemento quando a população for muito grande em relação ao tamanho da amostra. Caso contrário, ou seja, quando a população for finita e a amostra constituir mais que 5% da população, a não reposição do elemento antes da seleção do próximo modificará sensivelmente as probabilidades de escolha dos elementos da amostra, modificando consequentemente sua distribuição de probabilidades.

Desta forma, se o tamanho da amostra for menor que 5% do tamanho da população, a não reposição pode ser desprezada. No entanto, se o tamanho da amostra for superior a 5% do tamanho da população, deve-se corrigir o intervalo, para compensar os efeitos da não reposição. O fator de correção a ser utilizado será:

1

N

n

N

em que: N é o tamanho da população; n é o tamanho da amostra.

(7)

O intervalo de confiança, neste caso, será:

α

1

)

1

N

n

N

n

σ

Z

x

µ

1

N

n

N

n

σ

Z

x

P(

(x) 2 α (x) 2 α

=

+

<

<

Exercícios:

2) Sabe-se que as despesas mensais com alimentação dos 1500 alunos de uma faculdade no período escolar são normalmente distribuídas com desvio padrão de $30,00. Uma amostra, sem reposição, de 180 estudantes revelou uma despesa mensal de $115,00. Determine o intervalo de confiança de 91% para a despesa média com alimentação no período escolar dos alunos desta faculdade. Resposta: P(111,39 ≤ µ ≤ 118,61) = 0,915

3) A duração de uma peça é tal que σ = 8 horas. Foram tiradas amostras, aleatoriamente, com 130 dessas peças, obtendo-se vida média de 525 horas. Deseja-se construir um intervalo de confiança para a verdadeira vida média da peça com 92,5% de confiança.

Resposta: P(523,751 ≤ µ ≤ 526,249) = 0,925

4) Admita os mesmos dados do exemplo anterior, considerando como população a produção de 1200 peças. Resposta: P(523,820 ≤ µ ≤ 526,180) = 0,925

6.2.7 - Estimação de médias quando o desvio padrão (σx) é desconhecido:

Distribuição t-Student

Quando o desvio padrão da população não é conhecido (o que geralmente acontece), utiliza-se o desvio padrão da amostra como estimativa (substitui-se "σx" por "sx") nas equações

para intervalos de confiança e erros. Normalmente, é razoável fazer esta hipótese pois o desvio padrão amostral dá uma boa aproximação do verdadeiro valor. Além disso, sabe-se que, quando o tamanho da amostra é superior a 30, a distribuição das médias é aproximadamente normal. Entretanto, para amostras de 30 ou menos observações, a aproximação normal não é adequada. Deve-se então usar a distribuição "t de Student" ou simplesmente "t", que é a distribuição correta quando se usa "sx".

A forma da distribuição "t" é bastante parecida com a normal. A Figura 6.4 apresenta uma comparação entre as distribuições "t" e normal. A principal diferença entre as duas distribuições é que a distribuição "t" tem maior área nas extremidades. Isto significa que, para um dado nível de confiança, o valor "t" será um pouco maior que o correspondente valor Z.

Figura 6.4 - Comparação entre as distribuições "t" e normal.

Mas o aspecto interessante sobre a distribuição "t" é que ela não é uma distribuição padronizada no mesmo sentido da distribuição normal pois existe uma distribuição "t" ligeiramente diferente para cada amostra. Assim, enquanto a distribuição normal é essencialmente independente do tamanho da amostra, a distribuição "t" não tem o mesmo comportamento. Para amostras pequenas (por exemplo, menores que 30), a distribuição "t" é mais sensível em relação

(8)

ao tamanho da amostra, embora para amostras maiores essa sensibilidade diminua. Na verdade, a distribuição "t" é sempre teoricamente correta quando não se conhece o desvio padrão da população, independentemente do tamanho da amostra.

A Tabela 6.1 mostra os valores de "t" (semelhante aos valores de Z visto no capítulo 5). Como existe uma distribuição para cada tamanho de amostra, não seria prático tentar construir tabelas completas das distribuições "t". Nesse caso, tabelam-se apenas os principais valores. Para usar uma tabela "t", deve-se conhecer duas coisas: o nível de confiança desejado, e o número de graus de liberdade. O número de graus de liberdade está relacionado com a maneira como se calcula o desvio padrão:

1 n ) x (x s n 1 i 2 x − =

= em que:

sx = desvio padrão amostral;

n -1 = graus de liberdade.

O gráfico da distribuição "t" é simétrico em relação à sua média, de forma semelhante à distribuição normal. A distribuição "t" é mais dispersa que a normal, porém a dispersão diminui à medida que o número de graus de liberdade aumenta, sendo que para valores de (n - 1) > 30 as distribuições são praticamente iguais.

Figura 6.5 - Representação do intervalo de confiança para a distribuição t de Student. De acordo com o gráfico da Figura 6.5 tem-se que:

α

1

)

n

s

t

x

µ

n

s

t

x

P(

x 2 α x 2 α

<

<

+

=

Exercícios:

5) O comprimento das peças produzidas por uma máquina é normalmente distribuído. Uma amostra aleatória de 10 peças apresentou os seguintes valores em milímetro:

8,75 8,72 8,73 8,76 8,78 8,74 8,73 8,77 8,74 8,72 Construa um intervalo com 95% para o comprimento médio.

Resposta: P(8,729 ≤ µ ≤ 8,759) = 0,95

6) Um pequeno produtor de queijo utiliza processos rudimentares em sua produção. Um cliente deseja encomendar 200 peças do produto padronizadas em 1Kg. Após a produção, para verificar se o lote produzido atende ao padrão desejado, selecionou ao acaso uma amostra de 15 queijos que apresentou peso médio de 1,03Kg com desvio padrão de 0,06kg. Construa o intervalo de confiança de 98% para o peso médio das peças produzidas neste lote.

(9)

Tabela 6.1 – Distribuição t – Student

α

0,1 0,05

0,025

0,01

0,005

1

3,0777 6,3137 12,7062

31,8210

63,6559

1

2

1,8856 2,9200 4,3027 6,9645 9,9250

2

3

1,6377 2,3534 3,1824 4,5407 5,8408

3

4

1,5332 2,1318 2,7765 3,7469 4,6041

4

5

1,4759 2,0150 2,5706 3,3649 4,0321

5

6

1,4396 1,9432 2,4469 3,1427 3,7074

6

7

1,4149 1,8946 2,3646 2,9979 3,4995

7

8

1,3968 1,8595 2,3060 2,8366 3,3554

8

9

1,3830 1,8331 2,2622 2,8214 3,2498

9

10

1,3722 1,8125 2,2281 2,7638 3,1693

10

11

1,3634 1,7959 2,2010 2,7181 3,1058

11

12

1,3562 1,7823 2,1765 2,6810 3,0545

12

13

1,3502 1,7709 2,1604 2,6503 3,0123

13

14

1,3450 1,7613 2,1448 2,6246 2,9768

14

15

1,3406 1,7531 2,1315 2,6025 2,9467

15

16

1,3368 1,7459 2,1199 2,5835 2,9208

16

17

1,3334 1,7396 2,1098 2,5669 2,8982

17

18

1,3304 1,7341 2,1009 2,5524 2,8784

18

19

1,3277 1,7291 2,0930 2,5395 2,8609

19

20

1,3253 1,7247 2,0860 2,5280 2,8453

20

21

1,3232 1,7207 2,0796 2,5176 2,8314

21

22

1,3212 1,7171 2,0739 2,5083 2,8188

22

23

1,3195 1,7139 2,0687 2,4999 2,8073

23

24

1,3176 1,7109 2,0639 2,4922 2,7370

24

25

1,3163 1,7081 2,0595 2,4851 2,7874

25

26

1,3150 1,7058 2,0555 2,4786 2,7787

26

27

1,3137 1,7033 2,0518 2,4727 2,7707

27

28

1,3125 1,7011 2,0484 2,4671 2,7833

28

29

1,3114 1,6991 2,0452 2,4620 2,7564

29

30

1,3104 1,6973 2,0423 2,4573 2,7500

30

35

1,3062 1,6896 2,0301 2,4377 2,7238

35

40

1,3031 1,6839 2,0211 2,4233 2,7045

40

45

1,3007 1,6794 2,0141 2,4121 2,6896

45

50

1,2987 1,6759 2,0086 2,4033 2,6778

50

60

1,2958 1,6706 2,0033 2,3901 2,6603

60

70

1,2938 1,6689 1,9944 2,3809 2,6479

70

80

1,2922 1,6641 1,9931 2,3739 2,6387

80

90

1,2910 1,6620 1,9867 2,3685 2,6316

90

100

1,2901 1,6602 1,9840 2,3642 2,6259

100

φ

1000

1,2824 1,6464 1,9623 2,3301 2,5807

1000

φ

0,1 0,05

0,025

0,01

0,005

α

Referências

Documentos relacionados

Saviani (1983, 1999), como antes já foi abordado, seguindo a lógica do método dialético de elaboração do conhecimento científico, propôs um método de ensino que,

Entendemos por estudo dos “padrões” e “dinâmicas” de acumulação económica e de pobreza a análise das características económicas, sociais e políticas

A Figura 4.10 mostra que, utilizando o novo catalisador para a produção de homopolímero em fase líquida em série com a fase gás, uma relação Al/Ti em torno de 90

Para a célula fabricada em silício monocristalino (c-Si), comprimentos de onda pouco energéticos não são aproveitados, tais fótons não têm energia necessária para

Retirando-se uma amostra de n elementos de uma população normal com média (μ) e variância (σ²), então, a distribuição amostral da variância amostral segue uma distribuição de

A usabilidade dos equipamentos, dispositivos e ferramentas manuais depende de inúmeros fatores, envolvendo com destaque a ergonomia, como medidora do trabalho ou

Considera a permanência da televisão na preferência da juventude brasileira e baseia-se em conceitos da Semiótica da Cultura – como texto – e da Teoria das Representações

O diretor da Agência Nacional de Energia Elétrica (Aneel), Edvaldo Santana, disse ontem que o atual cenário de turbulências no setor elétrico “está caminhando para