• Nenhum resultado encontrado

Introdução à Inferência Estatística 1. Conceitos básicos em inferência

N/A
N/A
Protected

Academic year: 2021

Share "Introdução à Inferência Estatística 1. Conceitos básicos em inferência"

Copied!
39
0
0

Texto

(1)

Introdução à Inferência Estatística

1.

Conceitos básicos em inferência

1.1. População: conjunto de indivíduos, ou objetos, com pelo menos uma característica em comum.

 Também será denotada por população objetivo, que é sobre a qual desejamos obter informações e/ou fazer inferências.

 Pode, ainda, ser chamada de Universo. Será denotada por:

U

u

1

,

u

2

,

u

3

,

,

u

N

i

u

unidades elementares, i = 1, 2, . . . , N. N = no de elementos, ou tamanho, da população.

Na inferência estatística a população será definida por:

Conjunto de valores possíveis de uma característica observável (variável), associada a uma coleção de indivíduos ou objetos de interesse.”

1.2. Amostra: subconjunto, necessariamente finito, de uma população.

 é selecionada de forma que todos os elementos da população tenham a mesma chance de serem escolhidos.

1.2.1. Planejamentos amostrais: são esquemas para coletas de dados numa pesquisa amostral.

 Existem vários tipos de planejamentos dos quais destacaremos:  Amostra Aleatória Simples – AAS

 Amostra Aleatória Estratificada – AAE

(2)

1.3. Estudo experimental

Experimento no qual um tratamento é deliberadamente aplicado aos indivíduos (ou itens) a fim de observar a sua resposta.

Exemplos:

a) ensaios para se verificar a dureza de materiais; b) estudos caso-controle em epidemiologia;

c) pesos de cobaias submetidas à diferentes dietas; “Requer um planejamento experimental.”

 No estudo experimental é muito importante determinar o número de elementos necessários, ou seja, o tamanho da amostra;

 É importante, também, planejar adequadamente a amostra de maneira a não interferir nos resultados.

1.4. Levantamentos de dados

A seguir, serão apresentadas algumas situações envolvendo levantamentos de dados.

1.4.1. Uma amostra: sortear ao acaso n elementos de uma população para participar da amostra.

Exemplos:

a) dentre os eleitores de um município, sortear uma amostra para participar de uma pesquisa de intenção de votos;

b) produzir uma amostra de peças de espuma, segundo uma específica formulação, para serem colocadas num teste de resistência à tração.  Normalmente compara-se a amostra com um padrão já conhecido;  Espera-se que a população seja homogênea (pouca variabilidade).

(3)

1 2 1 3 2   n N População Amostra

1.4.2. Duas amostras: amostras são retiradas de uma ou duas populações.

 quando dispomos de duas amostras, geralmente queremos realizar uma comparação entre as mesmas.

i) Amostras independentes: nenhum elemento da primeira amostra

interfere nos da segunda.

a) Dois tratamentos: tomar n elementos de uma única população e dividi-los em dois grupos, de preferência de mesmo tamanho.

(ou sortear, independentemente, duas amostras de uma mesma população) 1 1 2 2  3 n1 n1 + n2 = n  1 2 N n2 População Amostras

(4)

b) Duas populações: sortear n1 elementos da primeira população e n2

da segunda e aplicar o mesmo tratamento em ambas.

1 1 2 2 3   n1 N1  n1 + n2 = n 1 1 2 2 3   n2 N2 Populações Amostras

ii) Amostras pareadas ou emparelhadas (dependentes): uma amostra observada em dois instantes diferentes: (antes/depois), (tempo 1, tempo 2). 1 1 Fazer as diferenças: 2 t 2   di = yi2 – yi1 n n t1 t2 Amostras

(5)

1.4.3. k amostras: quando se tem k ≥ 3 amostras para comparar.

a) k grupos independentes: classificar, ao acaso, n elementos em k grupos tal que n = n1 + n2 + . . . + nk.

 O ideal é que todos os grupos sejam de mesmo tamanho: n1 = n2 = . . . = nk A1 : 1, 2, . . . , n1k grupos independentes A2 : 1, 2, . . . , n2  Ak : 1, 2, . . . , nk

 A variável A é chamada de fator e os grupos A1, A2, . . . , Ak são os

tratamentos ou níveis do fator A.

b) Medidas repetidas: o mesmo grupo, de tamanho n, é observado em k instantes diferentes. 1 1 1 1 2 2 2 . . . 2     n n n n t1 t2 t3 tk

(6)

c) k grupos independentes com duas classificações: classificação de vários grupos quando se tem dois critérios (ou fatores) para a divisão dos mesmos.

 Considere, por exemplo, um fator com três níveis (A1, A2, A3) e um

segundo fator com dois níveis (B1, B2), terem-se k = 23 = 6

grupos para serem comparados.

A1 B1 A1 B1 B2 A1 B2 A2 B1 A2 B1  6 grupos B2 A2 B2 A3 B1 A3 B1 B2 A3 B2

(7)

RESUMO

A) Estudo Amostral

Amostragem Aleatória Simples - AAS Amostragem Aleatória Estratificada - AAE

Amostragem Aleatória por Conglomerados - AAC Planejamentos Amostrais mais complexos

B) Estudo Experimental

1 amostra  1 população

2 amostras

Independentes 2 tratamentos (1 pop) 1 tratamento (2 pop)

Dependentes dados pareados k amostras

( k ≥ 3 )

Independentes 1 fator 2 fatores

(8)

2. Estimação

2.1. Parâmetro populacional

Geralmente denotado por , é uma característica populacional de interesse que pode ser expressa através de uma quantidade numérica. É desconhecido e fixo.

Exemplos:

 no de desempregados,

 salário médio de uma categoria ou população,  opinião a respeito de uma dada atitude,

 casos de dengue,

 tempo gasto com filhotes,  tamanho da população  tempo de vida

 no de votos para um determinado candidato,

 produção agrícola, etc... 2.2. Espaço paramétrico

Denotado por , é o conjunto dos possíveis valores de .

Exemplos:

  = {  | –∞ <  < ∞ };   = {  | 0 <  < ∞ };   = {  | 0 ≤  ≤ 1 };

(9)

2.3. Amostra aleatória: representada pelas iniciais aa, é formada pela observação de n variáveis aleatórias X1, X2, . . . , Xn, independentes e identicamente distribuídas, iid.

n

X X

X1, 2,,

F(x|)

2.4. Variável aleatória: uma variável aleatória ou va é uma característica desconhecida, que pode variar de um indivíduo para outro da população e que, ao ser observada ou mensurada, deve gerar uma única resposta.

Tipos de variáveis:

a) Variáveis qualitativas: variáveis cujos possíveis resultados são atributos ou qualidades. São NÃO NUMÉRICAS.

Podem ser classificadas em:

ORDINAIS, quando obedecem a uma ordem natural ou

NOMINAIS, quando não seguem nenhuma ordem.

b) Variáveis quantitativas: variáveis cujos possíveis resultados são valores NUMÉRICOS, resultantes de mensuração ou contagem.

Podem ser classificadas em:

DISCRETAS, quando assumem valores num espaço finito ou infinito

enumerável ou

CONTÍNUAS, quando assumem valores num conjunto não

enuméral (conjunto dos números reais).

(10)

2.5. Estatística: é uma medida numérica, S(X), que descreve uma característica da amostra e que não depende de parâmetros desconhecidos.

A estatística é uma função da amostra: S(X) = f(X1, X2, . . . , Xn)

toda estatística S(X) é uma va

Exemplos:  n X X n i i    1 – média amostral, 

1 1 2 2     n X X s n i i – variância amostral,  X(1) = mínimo 1ª estatística de ordem,

 X(n) = máximo n-ésima estatística de ordem.

PARÂMETROS E ESTATÍSTICAS

Nome ESTATÍSTICA Amostra PARÂMETRO População

Média

X

Variância s2 2

Correlação rX,Y X,Y

Proporção p

2.6. Estimador: é uma quantidade, obtida a partir de uma amostra, que “estima” o valor de um parâmetro populacional.

(11)

{ T(X) } { S(X) }, ou seja, todo estimador é uma função da amostra e, portanto, é uma estatística, porém, nem toda estatística é um

estimador.

todo estimador T(X) é uma va

Notação: Como T(X) estima o parâmetro , uma notação simplificada para o estimador é dada por: T(X)  ˆ

2.6.1. Estimativa: estimativa é o valor de T(X) obtido de uma aa, que será usada para estimar o valor desconhecido de .

2.7. A inferência estatística:

“A Inferência Estatística busca obter informações de parâmetros populacionais por intermédio das características de uma amostra e de suas distribuições de probabilidade”.

Amostra aleatória

 = parâmetro ˆ = estimador

Inferência:

Intervalos de Confiança Testes de Hipótese

(12)

2.7.1. Questões que surgem:

Quantos estimadores existem para um parâmetro populacional?

 Quais as qualidades que se deseja de um estimador?

 Como escolher o melhor estimador?

Resposta: Teoria da Otimalidade.

Estimador ótimo

A teoria da Otimalidade estuda as propriedades dos estimadores e define critérios para a escolha do estimador ótimo.

Segundo essa teoria um estimador é ótimo basicamente se for: consistente, não viesado e de mínima variância.

2.7.2. Estimador não viesado (não viciado): o viés, do inglês bias, é definido pela diferença entre o valor esperado do estimador e o parâmetro o qual este está estimando.

Seja ˆ, estimador de , então o viés de ˆ é definido por: B(ˆ ) = E(ˆ) –

em que  é o espaço paramétrico.

Se E(ˆ ) = , ˆ é dito não viesado (ou não viciado) e B(ˆ ) = 0

(13)

2.7.3. Precisão: uma propriedade importante para um estimador é que seja preciso, em outras palavras, que tenha baixa variabilidade

 ˆ deve ser escolhido tal que sua variância seja a menor possível

ˆ |Var(ˆ) seja mínima

2.7.4. Consistência: além de ser não viesado e de variância mínima deseja-se que o estimador ˆ seja consistente.

Um estimador ˆ é dito ser consistente para  se      (ˆ) lim E n e lim (ˆ) 0   Var n

Conforme aumenta o tamanho da amostra, mais ˆ se aproxima de . Assim, a teoria da otimalidade procura, dentre os estimadores não viesados, aquele de menor variância.

(14)
(15)

3. Estimadores para a média

A maioria das aplicações em estatística envolvem a estimação da média populacional .

Quais os possíveis estimadores e qual deles é o melhor (estimador ótimo).

 Média aritmética ou média amostral (X );  Média geométrica;

 Média harmônica;  Média aparada;  Média ponderada;

Qual desses estimadores é o melhor para estimar ? 1º - escolher os não viesados;

2º - dentre os não viesados, encontrar o de menor variância.

A teoria estatística (otimalidade) resolve esse problema e mostra qual o estimador ótimo para :

Segundo essa teoria, o estimador ótimo para é a média amostral X .

(16)

Estudo das propriedades dos estimadores: média amostral, média harmônica, média geométrica e média ponderada

( X1/3 + 2X2/3 ) para amostras de tamanho n = 2, com reposição.

População 2 3 5 6 8 Parâmetros Populacionais Média  = 4.8 Variância 2 = 4.56 Tamanho N = 5 n 2  = 2.28 Amostras Estimadores

X1 X2 X M. Harm. M. Geom. M. Pond.

2 2 2 2.000 2.000 2.000 2 3 2.5 2.400 2.449 2.667 2 5 3.5 2.857 3.162 4.000 2 6 4 3.000 3.464 4.667 2 8 5 3.200 4.000 6.000 3 2 2.5 2.400 2.449 2.333 3 3 3 3.000 3.000 3.000 3 5 4 3.750 3.873 4.333 3 6 4.5 4.000 4.243 5.000 3 8 5.5 4.364 4.899 6.333 5 2 3.5 2.857 3.162 3.000 5 3 4 3.750 3.873 3.667 5 5 5 5.000 5.000 5.000 5 6 5.5 5.455 5.477 5.667 5 8 6.5 6.154 6.325 7.000 6 2 4 3.000 3.464 3.333 6 3 4.5 4.000 4.243 4.000 6 5 5.5 5.455 5.477 5.333 6 6 6 6.000 6.000 6.000 6 8 7 6.857 6.928 7.333 8 2 5 3.200 4.000 4.000 8 3 5.5 4.364 4.899 4.667 8 5 6.5 6.154 6.325 6.000 8 6 7 6.857 6.928 6.667 8 8 8 8.000 8.000 8.000 Médias 4.8 4.323 4.546 4.80 Variâncias 2.28 2.5852 2.3772 2.5333

(17)

Tabela resumo dos estimadores para a Média Populacional. Estimadores

X M. Harm. M. Geom. M. Pond.

Média do Estimador 4.8 4.3229 4.5456 4.8

Vício 0 -0.4771 -0.2544 0

Variância do Estimador 2.28 2.5852 2.3772 2.5333

Relação da variância de X com as demais 1 1.1339 1.0426 1.1111

Pela tabela acima, pode-se ver claramente que:

 as médias harmônica e geométrica são viesadas para estimar a média μ;  a média ponderada com pesos 1/3 e 2/3 não é viesada para estimar μ,

porém não tem a menor variância

 a média amostral X é o estimador não viciado de menor variância.

3.1. Métodos de estimação:

A teoria estatística define diversos métodos de estimação, dentre os quais destacamos:

3.2. Método da máxima verossimilhança: o estimador de máxima verossimilhança (emv) é dado pelo valor que maximiza a distribuição conjunta da amostra, chamada de função de verossimilhança, representada por L(|dados).

   n i i x f dados L 1 ) ( ) | (  ˆMV  max[L(|dados)] 

(18)

3.3. Métodos dos momentos: o estimador é obtido igualando os momentos amostrais com os momentos populacionais.

 Depende da distribuição de probabilidade da população

3.4. Método mínimos quadrados: o estimador é aquele que minimiza uma soma de quadrados de erros entre os valores da amostra e uma função do parâmetro g().

     n i i i g x SQE 1 2 )] ( [ ) (  ˆ  min[ ()]  SQE MQ

 O estimador de mínimos quadrados é mais utilizado no ajuste de modelos de regressão linear.

3.5. Estimador Bayesiano: o estimador Bayesiano é obtido a partir de técnicas da estatística Bayesiana que faz uma ponderação da função de verossimilhança L(|dados) por uma distribuição de

(19)

4. Propriedades do estimador para a média . 4.1. Propriedades da média amostral

Mostrar que a média amostral X atende às propriedades de estimador ótimo para .

Seja a aa X1, X2, . . . , Xn, independentes e identicamente distribuídas (iid) segundo uma função distribuição de probabilidade tal que

    ) ( X E e Var( X)  2  , então i)  

 

          

n n n X E n X E X E n i i n i 1 i 1 ) ( ,

ou seja, X não é viesada para estimar a média μ, pois, E( X) 

ii) a variância de X é dada por:

 

n n n n X Var n X Var X Var n i i n i i 2 2 2 2 1 1 ) (             

.

A partir de E( X) e Var( X) temos, ainda que

        n nlim E(X) lim 0 lim ) ( lim 2        Var X n n n

(20)

iii) Neste ponto devemos mostrar que, dos estimadores não viesados para μ, X é o de variância mínima, porém, tal demonstração depende da distribuição de probabilidade f (x) e não está na ementa desta disciplina.

A teoria estatística mostra que existe um limite inferior para a variância dos estimadores não viesados de um parâmetro θ, no caso a média μ, e que X atinge este limite, sendo, assim, o estimador não viesado para μ de menor variância.

O que podemos mostrar aqui é que, dos estimadores para a média dados por uma combinação linear da amostra, aquele de menor variância é dado pela combinação na qual todos os coeficientes são iguais a 1/n.

Seja a aa X1, X2, . . . , Xn, e sejam os estimadores para a média do tipo n nX a X a X a     ˆ 1 1 2 2  Então

 

E

a X a X anXn

E ˆ  1 12 2 

 

X a E

 

X anE

 

Xn E a     1 1 2 2         a1 a2an

  

  a1 a2an ou seja, para que ˆ seja não viesado,

1 2

1 a  an

(21)

Desta forma, sob a restrição (1) e usando multiplicadores de Lagrange pode-se obter os valores de a1, a2,..., an que minimizam a

 

ˆ Var .

 

Var

a X a X anXn

Var ˆ  1 12 2 

 

X a Var

 

X anVar

 

Xn Var a12 122 2   2  

         n i i n a a a a12 2 22 2  2 2 2 1 2 A função de Lagrange (ou lagrangeano) é dado por:

L(λ)  2

in1ai2 

in1ai 1

(2)

O primeiro termo de L(λ) é a variância de ˆ e, como o termo em λ, sob a restrição (1) é igual a zero, encontrar os coeficientes que minimizam L(λ) equivale a minimizar Var

 

ˆ .

Derivando (2) em relação a cada um dos ai, i = 1, 2, ..., n e igulando cada derivada a zero, os valores dos ai’s que minimizam a Var

 

ˆ são dados pela solução do sistema:

 

 

 

                                   0 2 0 2 0 2 2 2 2 2 2 1 1 n n a a a a a a L L L 

(22)

Das derivadas de L(λ) temos que:         2 2 2 2 1 2 2 2a aan , e, como o termo 2

2 é constante, segue-se que

n

a a

a12    . (3)

Portanto, das relações (1) e (3) tem-se que os valores dos coeficientes que minimizam a variância de ˆ são dados por:

n a

a

a12    n  1 .

4.2. A distribuição da média amostral

Como já vimos, a média amostral X é uma v.a. tendo, assim, uma distribuição de probabilidade que depende da distribuição f(x) da população de X. O teorema central do limite, contudo, determina uma distribuição para a média amostral que independe da distribuição de probabilidade da população.

4.2.1. O Teorema Central do Limite (TCL)

Seja uma aa X1, X2, . . . , Xn, de uma população com média μ < ∞ e variância σ2

< ∞. Então, para n suficientemente grande, a média amostral X tem aproximadamente uma distribuição normal com

 

X   E e

 

n X Var 2   , ou seja       n N X 2 , ~

(23)

O TCL aparece na maioria das vezes no seguinte formato: se X é uma va com média μ < ∞ e variância σ2 < ∞, então

 

0,1 ~ / n N X    , ou ainda, n

X

~ N

 

0,1    Notas:

i) Quanto maior o tamanho da amostra n, melhor será a proximação (um valor apropriado para o tamanho da amostra é n  30);

ii) Quando a distribuição da população for normal, então a distribuição de X também será normal;

iii) O TCL considera que a variância da população é conhecida.

Exemplo:

Considere quatro populações apresentadas na Figura 1:

binomial(10, 0.10); Poisson(2); exponencial(1) e Normal(50, 9). As duas primeira são distribuições discretas e assimétricas, a terceira é uma distribuição contínua fortemente assimétrica e a última é uma população normal, que é uma distribuição simétrica.

Considerando essas quatro populações, foram geradas 1000 amostras de tamanhos 8, 30 e 100.

Para cada uma das 1000 amostras foi calculada a média amostral X , ao final do que, foram construídos os respectivos histogramas apresentados nas Figuras 2 a 5.

Pelos histogramas pode-se observar nitidamente a melhoria na simetria, indicando que a distribuição se aproxima da normal.

(24)

Figura 1: Populações consideradas na simulação do TCL para X .

Figura 2: Histogramas para X em amostras de população binomial(10, 0.10).

(25)

Figura 4: Histogramas para X em amostras de população exponencial(1).

Figura 5: Histogramas para X em amostras de população normal(50, 9).

4.3. O estimador para a proporção p

Seja uma característica apresentada por uma parcela de uma população. Então, definimos a proporção p de indivíduos, ou objetos, da população com essa característica por

p população da tamanho tica caracterís a com população da itens, ou , indivíduos de número 

(26)

Exemplos:

1) Proporção de mulheres na população brasileira em 2014 segundo estimativa do IBGE:

Número estimado de mulheres = 102.609.055 Número estimado de homens = 100.159.507 Popualção total estimada = 202.768.562

506 . 0 2 202.768.56 5 102.609.05 p

Portanto, segundo o IBGE, em 2014 a proporção de mulheres na população brasileira é de 0.506.

2) Proporção de defeitos na linha de produção de uma indústria )

defeito (

P p

Um estimador intuitivo para uma proporção populacional é dado pela respectiva proporção amostral, a qual denotaremos por .

Seja uma amostra aleatória iid X1, X2, . . . , Xn, então amostra da tamanho tica caracterís a com amostra da itens, ou , indivíduos de número 

Obs: se pensarmos na observação de um indivíduo, ou item, da amostra com a característica de interesse como um sucesso, podemos definir por

n

pˆ  número desucessosna amostra

Considere uma v.a. X, resultado de um ensaio de Bernoulli. Então, X assume os valores 0 e 1 para sucesso e fracasso, respectivamente, com probabilidades (1 – p) e p.

(27)

A distribuição de probabilidade de X é a Bernoulli(p), cuja função de probabilidade é dada por

1 , 0 , ) 1 ( ) (Xxpp 1 xP x x .

A média e da v.a. de Bernoulli é dada por p p p X E         ( ) 1 0 (1 )

Como, E(X2)  p, a variância da v.a. de Bernoulli é

( )

(1 ) ) ( ) ( 2 2 2 p p X E X E X Var       ) 1 ( 2 p p p p   

Considere, agora, uma amostra aleatória iid X1, X2, . . . , Xn, de uma variável de Bernoulli cuja probabilidade de sucesso é p.

Para contar a número de observações da amostra com a característica de interesse basta somar as v.a.’s já que estas assumem os valores 0 e 1.

     n i i n X X X X 1 2 1  ,

desta forma, a proporção amostral é dada por:

n X p n i i

 1 ˆ .

Ou seja, o estimador para a proporção populacional p é dado pela média amostral de uma v.a. de Bernoulli,

X n X p n i i  

1 ˆ .

(28)

Como o estimador para a proporção p é, de fato, uma média amostral, todas as propriedades de X também são válidas para .

Desta forma, podemos afirmar que é o estimador ótimo para a proporção p.

O valor esperado e a variância de são, portanto, dados por

 

 

p n np n X E p E n i i   

1 ˆ

 

 

n p p n p np n X Var p Var n i i (1 ) (1 ) ˆ 

1 22  

Por se tratar de uma média amostral, o TCL é válido para a determinação da distribuição do estimador da proporção.

Logo, tem uma distribuição aproximada normal com média   p e variância n p p n ) 1 ( 2   , ou seja,      n p p p N pˆ ~ , (1 ) . (4) Ainda:

 

0, 1 ~ / ) 1 ( ˆ N n p p p p   Exemplo:

3) Um dado equilibrado é lançado 128 vezes. Determine a probabilidade de que a proporção amostral dos múltiplos de 3 seja inferior a 0.27. Múltiplos de 3: {3, 6},

(29)

logo a proporção populacional é

3 1

p

Desta forma, a proporção amostral tem distribuição assintótica normal com parâmetros:

 

3 1 ˆ  pp E

 

1152 2 128 ) 3 / 2 )( 3 / 1 ( ) 1 ( ˆ     n p p p Var       1152 2 , 3 1 ~ ˆ N p Portanto,

1.52

0.0643 1152 / 2 3 / 1 27 . 0 27 . 0 ˆ             P Z P Z p P

Determine, ainda, qual o tamanho da amostra para que, com probabilidade 0.95 (95%), pˆ não se afaste de p mais do que 0.03 (3%) para mais ou para menos.

pˆ  p  0.03

 0.95 P

0.03 pˆ  p  0.03

0.95 P 95 . 0 9 / 2 03 . 0 9 / 2 03 . 0          n Z n P –1.96 1.96

(30)

Portanto: 1.96 9 / 2 03 . 0 n  0.03 96 . 1 2 9n  948.5 949 03 . 0 96 . 1 9 2 2        n

Desta forma, uma amostra de 949 lançamentos do dado garante uma “margem de erro” na estimativa de p de 3% para mais ou para menos.

4.3.2. O Estimador conservador para a variância da proporção amostral .

Na aproximação da distribuição da proporção amostral dada em (4), observa-se que a variância de pˆ depende da proporção populacional p.

Como não se conhece o valor de p, uma alternativa seria utilizar a sua estimativa para estimar a Var ˆ

 

p . Neste caso, tem-se

Método conservativo:

Uma segunda alternativa, muito utilizada, considera o valor de que maximiza Var ˆ

 

p

 

n p p p Var 2 ˆ  

logo, o valor de p que maximiza Var ˆ

 

p é dado por

2 1  p e,

 

n p Var p 4 1 ˆ max 

(31)

Exemplo:

4) Refazer a segunda parte do exemplo anterior com a variância de calculada pelo método conservativo.

95 . 0 4 / 1 03 . 0 4 / 1 03 . 0          n Z n P Portanto: 1.96 4 / 1 03 . 0 n  0.03 96 . 1 2 n   1067.1 1067 03 . 0 96 . 1 4 1 2        n

4.4. Determinação do tamanho da amostra na estimação da média μ

A determinação do tamanho da amostra é, talvez, o grande dilema dos pesquisadores, pois deve levar em conta a precisão desejada nas estimativas. Essa precisão normalmente é expressa por um erro tolerável 1 e, a determinação do tamanho da amostra n, deve levar em conta a probabilidade de se cometer esse erro.

Seja X estimador não viesado para μ, então, ao se considerar uma precisão

na estimativa da média, deseja-se que X não se afaste de μ mais do que

unidades.

1

O erro tolerável é uma margem de erro das estimativas em relação à média μ, para mais ou para menos, o qual o pesquisador está disposto a aceitar.

(32)

Na prática, define-se a região

X , X 

e o tamanho da amostra é determinado tal que a probabilidade de que essa região contenha o real valor de μ seja alta, como por exemplo, de 0.95.

Em linguagem estatística:

X    X 

  P            ) ( ) ( ) ( dp X dp X X X dp P                n Z n P / /

Fazendo  1, então, temos que /2

/  

 

Z

n (ver figura).

Desta forma, o tamanho da amostra desejado é determinado por: 2 /     Z n 2 2 2 / 2    Zn (5)

Nota: a expressão (5) é conhecida como tamanho da amostra para populações infinitas

(33)

Na estimativa da proporção temos que 2  p(1 p), logo, a expressão (5) é escrita como

2 2 2 / ) 1 (    p p Zn (6)

E, caso seja considerada a estimativa conservadora para 2, temos

2 2 2 / 4  Zn Exemplos:

5) Para estimar o nível de dureza de peças de espuma produzidas para fabricação de bancos de automóveis, um técnico decide selecionar uma amostra da produção para medição. Como os ensaios para medição são destrutivos, o número de peças para análise deve ser bem determinado para evitar gastos desnecessários. Para a obtenção do tamanho da amostra fixou-se uma precisão de   0.5ud.

Determinar o número de peças para que, com probabilidade de 0.99 a precisão na estimativa seja alcançada.

Dados históricos do processo registram uma variância de 2  2.96. 99 . 0 / 96 . 2 5 . 0 / 96 . 2 5 . 0        n Z n P Como  1  0.99  0.005 2 99 . 0 1 2     Logo Z/2Z0.005  2.575 Portanto 2.575 96 . 2 5 . 0 n

(34)

 

0.5 78.5 575 . 2 96 . 2 2 2   n

Ou seja, devem ser selecionadas n = 79 peças para teste.

6) Na primeira fase de uma pesquisa eleitoral foi realizada uma pré-amostra de tamanho 40, obtendo-se a proporção de pˆ  0.24 eleitores que afirmaram votar no candidato do partido “PTK”.

Qual deve ser o tamanho da amostra para que, com probabilidade de 0.95 a estimativa não se distancie do real valor mais do que 0.02

(0.02, ou 2%, é a margem de erro da pesquisa)?

Da pré-amostra temos que uma estimativa da variância populacional é dada por: ˆ2  0.24(10.24) 0.1824. Como   0.95  0.025 2   96 . 1 025 . 0  Z

Da expressão (6), o tamanho da amostra para uma margem de erro de 2% é 1752 8 . 1751 ) 02 . 0 ( ) 96 . 1 )( 24 . 0 1 ( 24 . 0 2 2     n eleitores.

Como alternativa, podemos utilizar a estimativa conservadora de 2.

Neste caso, o tamanho da amostra seria de 2400 2401 ) 02 . 0 ( 4 ) 96 . 1 ( 2 2    n eleitores.

(35)

Exemplos:

7) Um elevador de capacidade 500kg serve um edifício. Se a distribuição do peso dos usuários for N(70, 100), determine:

a) A probabilidade de que 7 passageiros ultrapassem esse limite. b) E 6 passageiros?

8) Um produto da marca XIS é comercializado em pacotes de 1kg, sendo que a distribuição do peso dos pacotes, em gramas, é N(1000, 51.2). A fiscalização inspeciona o produto por amostras de 5 pacotes e aplica uma multa se a média for menor do que 4g a menos do que peso especificado no pacote.

a) Qual a probabilidade de que o produto XIS seja multado?

Os produtores de XIS pretendem diminuir essa probabilidade. Para isso o Estatístico da empresa deu duas sugestões: deslocar a média, aumentando o peso dos pacotes ou aplicar ações visando reduzir a variabilidade do processo de empacotamento.

b) Para quanto deve ser regulada a nova média de tal forma que a probabilidade em (a) seja de no máximo 0.03?

c) Uma segunda opção sugerida pelos supervisores é implantar medidas que diminuam a variabilidade do processo de empacotamento, tornando-o maos preciso. De quanto deve diminuir a variância do processo para se obter o mesmo resultado pretendido em (a)?

Considere, agora, que a produtora tenha um custo adicional de 25 centavos por cada pacote com peso acima de 1008g. Qual a alteração no custo em cada um dos casos para um produção de 5 toneladas?

(36)

Comandos do R para visualizar os procedimentos: x1 <- seq(990,1010,by=0.2) y1 <- dnorm(x1,1000,3.2) x2 <- seq(992,1012,by=0.2) y2 <- dnorm(x2,1002,3.2) x3 <- seq(990,1010,by=0.2) y3 <- dnorm(x1,1000,2.1247) my <- max(y1,y2,y3)

plot(c(990,1012), c(0,my), axes=T, type="n", main="Densidade Normal", xlab="x", ylab="")

lines(c(1008,1008),c(-1,my+0.1), lty=2) axis(1,1008, paste("1008"))

lines(x1,y1, xlab="x", col="blue3", lwd=2) lines(x2,y2, xlab="x", col="green3", lwd=2) lines(x3,y3, xlab="x", col="red3", lwd=2)

9) Seja uma população com   20 e 2  2.567.

a) Numa amostra de tamanho n = 9, qual a probabilidade de que a variância amostral seja superior a 4.3?

b) Determine um limite inferior k para o qual a probabilidade de que 2 s ser menor do que k seja de 0.025.

(37)

Exercícios de revisão

1) Uma indústria de chocolates produz uma barra com peso médio de 180g e desvio-padrão de 1.8g. As barras são embaladas em caixas com 20 unidades. Admitindo que o peso do produto tenha distribuição normal, qual é a probabilidade de que:

a) Uma caixa do produto pese mais do que 3614g.

b) A proporção de barras produzidas com peso acima de 182.3g.

c) Numa amostra de 9 barras do chocolate, a média amostral não se distancie do peso nominal mais do que 1.4g.

O supervisor de produção está desconfiado de que a máquina que produz as barras está desgastada e, com isso, o peso está variando demais. Para fazer uma verificação ele decide retirar uma amostra de itens da produção, pesá-las e verificar qual é a proporção de barras com peso acima do limite de 182.3g. Ele deseja que a sua estimativa não se distancie do real valor mais do que 0.02 com probabilidade 0.90. Quantas barras ele deve pesar?

2) 10 corpos de provas foram submetidos a um teste de corrosão onde foram submersos em água salgada durante 60 segundos/dia. A corrosão foi medida pela perda de peso em miligramas/decímetro quadrado/dia (mdd). Os dados obtidos foram:

130.1 124.2 122.0 110.8 113.1 103.9 101.5 92.3 91.4 83.7 a) De uma estimativa para a perda média de peso (em mdd) devido à

corrosão.

Considerando desvio padrão conhecido  = 16

b) Encontre o intervalo simétrico em torno de X que tenha probabilidade igual a 0.98.

c) Supondo que a verdadeira média seja  = 110mdd, calcule a probabilidade de que X seja superior ao máximo valor da amostra.

(38)

4.5. Distribuição da média amostral quando a variância σ2 é

desconhecida

4.6. Distribuição da variância amostral s2

4.7. Distribuição da diferença entre duas médias amostrais 4.7.1. 1º. Caso: variâncias conhecidas

4.7.2. 2º. Caso: variâncias iguais e desconhecidas 4.7.3. 3º. Caso: variâncias diferentes e desconhecidas

(39)

Resultados:

i) Se X1

N( 1 ; 12 ) e X2

N( 2 ; 22 ), independentes, então  X1 ± X2

N(1 ± 2 ; 12 + 22 )

ii) Se X1, X2, . . . , Xn

N(  ; 2 ), iid

Referências

Documentos relacionados

Inalação : Não apresentou efeitos significativos ou riscos críticos.. Não apresentou efeitos significativos ou

Considerando uma avaliação de qualidade de forma quantitativa e classificatória, na variável de dados relevantes da realidade, utilizados para medidas serem

O conceito de sustentabilidade, por não haver um consenso, muitas vezes é confundido com outros igualmente importantes, tais como: Produção Limpa, Desenvolvimento Sustentável

(2005), o preço estabilizado passou a ser um referencial de comparação entre alternativas e permitiu associar-se o conceito de valor como diferencial entre produtos similares.

• The definition of the concept of the project’s area of indirect influence should consider the area affected by changes in economic, social and environmental dynamics induced

a) AHP Priority Calculator: disponível de forma gratuita na web no endereço https://bpmsg.com/ahp/ahp-calc.php. Será utilizado para os cálculos do método AHP

FIGURA 1: Valores médios da porcentagem de germinação de sementes de Hymenaea stigonocarpa submetidas a diferentes tratamentos pré-germinativos.. contrapartida, Souza et

Avaliação do impacto do processo de envelhecimento sobre a capacidade funcional de adultos mais velhos fisicamente ativos.. ConScientiae