Intervalo de Confiança e cálculo de tamanho de amostra. Henrique Dantas Neder

(1)

Intervalo de Confiança e cálculo de tamanho de

amostra

(2)

Intervalo de confiança para a média da população µ

X

I Até o momento discutimos as propriedades da distrbuição normal e vimos que dentro de certa condição (amostras grandes) podemos generalizar o seu uso para calcular

probabilidades referentes a valores da média da amostra X e a soma da dos valores amostrais S =Pn

i =1Xi. Verificamos que

para qualquer tamanho de amostra (mesmo para amostras pequenas) a distribuição amostral das médias amostrais terá média igual a média da população (E (X ) = E (X ) ou dito de outra forma µ_X = µX) e que a variância das médias amostrais

será igual a variância de X dividido por n (σ2

X = σ2

X

n ).

I Verificamos também que a média de S será igual a média da população multiplicada pelo tamanho da população

(µS = µ × N) e a variância de S = n × σX2. Estas

propriedades são válidas para qualquer tamanho da amostra. Somente é necessário ter tamanho grande de amostra para a distribuição de X e de S serem normais.

(3)

Intervalo de confiança para a média da população µ

X

I Quando selecionamos aleatoriamente (amostra aleatoria simples) uma amostra de tamanho n > 30 de uma população qualquer a probabilidade do valor da média da amostra X ser menor do que um determinado valor ¯Xk:

P(X < ¯Xk) = P(z <

¯ Xk − µX

σ_X )

I Por exemplo, se n = 40, µX = 50 e σX = 20, a probabilidade

de ¯X ser menor do que Xk = 55 é:

P(X < 55) = P(z < 55 − 50

20/√40) = .31622768

I Podemos também afirmar que:

P(−1.96 < z < 1.96) = 0.95 Esta expressão é equivalente a:

P(−1.96 < X − µ

(4)

Intervalo de confiança para a média da população µ

X

I Manimulando algebricamente a desigualdade temos: P(−1.96 × σ_X < X − µ < 1.96 × σ_X) = 0.95

P(−X − 1.96 × σ_X < −µ < −X + 1.96 × σ_X) = 0.95

P(X + 1.96 × σ_X > µ > X − 1.96 × σ_X) = 0.95

I Reordenando os termos da desigualdade temos: P(X − 1.96 × σ_X < µ < X + 1.96 × σ_X) = 0.95

(5)

Intervalo de confiança para a média da população µ

X

I Esta última expressão indica que podemos construir um intervalo de confiança de 95% de probabilidade para o valor do parâmetro µX conhecendo-se o valor de X . Por exemplo,

de acordo com o exemplo anterior, suponhamos que não conhecemos µX e que X = 40 ,σX = 20 e n = 40: P(40 − 1.96 × σ_X < µ < 40 − 1.96 × σ_X) = 0.95 P(40 − 1.96 ×√20 40 < µ < 40 − 1.96 × 20 √ 40) = 0.95 P(33.801936 < µ < 46.198064) = 0.95

I Então podemos afirmar que existe uma probabilidade de 95% de que o valor do parâmetro µX esteja contido no intervalo

indicado nesta última expressão. Observe que não termos certeza absoluta (probabilidade de 100%) de que este valor esteja contido nos limites do intervalo.

(6)

Intervalo de confiança para a média da população µ

X

I Mas é um grande avanço a uma simples estimativa de ponto (simplesmnete afirmarmos que a média amostral X = 40). Com isto podemos determinar uma região na qual existe uma determinada probabilidade de conter o verdadeiro valor do parâmetro desconhecido. É importante observar que jamais conheceremos o verdadeiro valor do parâmetro µX.

I Isto aconteceria apenas se conhecessessemos toda a população. Mas já é uma grande vantagem podermos construir este intervalo. Neste caso estamos realizando uma operação de inferência.

I Inferência significa desenvolver qualquer afirmativa a respeito do valor de um parâmetro a partir de resultados amostrais. Não conhecemos a população completa, conhecemos apenas os valores de uma única amostra selecionada desta população, mas a partir desta informação podemos estabelecer algumas afirmativas a respeito de um determinado parâmetro (no caso deste exemplo de intervalo estamos tratando do parâmetro µX

que é a média desconhecida da população.

I Podemos generalizar este resultado como:

(7)

Intervalo de confiança para a média da população µ

X

I Chamamos 1 − α de nível de confiança do intervalo. Se 1 − α = 0.95, então α = 0.05. No caso do exemplo anterior (X = 40 ,σX = 20 e n = 40), podemos calcular um intervalo

de confiança de 80% de probabilidade (1 − α = 0.80) para o parâmetro µX como:

I Se 1 − α = 0.80 então α = 0.20 e 1 − α/2 = 1 − 0.2/2 = 0.9. Portanto: z_1−α/2= z0.9= φ−1(0.9) = 1.2815516

I Desta forma, um intervalo de confiança de 80% para a média populacional será: P(40 − 1.2815516 × σ2 X < µ < 40 − 1.2815516 × σ 2 X) = 0.80 P(40 − 1.2815516 ×√20 40 < µ < 40 − 1.2815516 × 20 √ 40) = 0.80 P(35.947378 < µ < 44.052622) = 0.80

(8)

Intervalo de confiança para a média da população µ

X

I Observe que, em relação ao intervalo de 95% de probabilidade, este intervalo ficou com uma amplitude menor. A amplitude do intervalo de confiança dependerá do valor da expressão:

z1−α/2× σX

n (2)

I Desta forma a amplitude aumenta quando σX aumenta. Isto

ocorre quando temos uma população com maior variância.Então, para populações de maiores variâncias

teremos (mantido o mesmo tamanho n de amostra e o mesmo nível de confiança 1 − α) maiores amplitudes de intervalos de confiança.

I A amplitude do intervalo de confiança também pode

aumentar (de acordo com a expressão anterior) com a redução do tamanho da amostra n.

(9)

Intervalo de confiança para a média da população µ

X

I Uma terceira forma de aumentar a amplitude do intervalo de confiança (para mesmo tamanho de amostra e mesma variância da população) é aumentar z_1−α/2. Para fazermos isto temos que aumentar o nível de confiança 1 − α do intervalo.

I Aumentar o tamanho (amplitude) do intervalo de confiança significa reduzir a precisão da estimativa por intervalo. Para aumentar a precisão da estimativa temos que reduzir o tamanho (amplitude) do intervalo.

I Só podemos fazer isto através de três maneiras: 1) reduzir o grau de confiança 1 − α do intervalo; 2) aumentar o tamanho n da amostra e 3) reduzir a variância σ_X2 da população. Como a variância da população geralmente é um dado do problema, temos apenas as duas primeiras opções.

(10)

Intervalo de confiança para a média da população µ

X

I A esta altura já deu para perceber que existe uma espécie de “trade-off” entre precisão do intervalo e nível de confiança do intervalo. Se não podemos auterar o tamanho n da amostra, quando aumentamos a precisão do intervalo somos obrigados a reduzir o seu grau de confiança e quando diminuimos a precisão automaticamente aumentamos o seu grau de confiança.

(11)

Intervalo de confiança para a média da população µ

X

I Na verdade só existe uma maneira de aumentarmos simultaneamente a precisão e confiança do intervalo: aumentarmos o tamanho da amostra. Todo este raciocínio pode ser obtido da análise da expressão (2) anterior.

I O intervalo de confiança pode ser interpretado de duas formas: 1) Um intervalo de confiança de 1 − α de probabilidade significa que existe esta probabilidade de que o verdadeiro valor

desconhecido do parâmetro µ esteja contido entre os limites inferior e superior do intervalo.

2) Se selecionassemos 100 amostras de mesmo tamanho n a partir de uma população com parâmetro (média populacional) µ e fossem construidos 100 intervalos de confiança a partir de cada X usando a expressão (1) anterior, 100 × (1 − α) destes intervalo conteriam o valor de µ desconhecido.

(12)

Intervalo de confiança para a média da população µ

X

I Vamos verificar esta última interpretação fazendo a simulação no computador de 100 intervalos de 95% de confiança

construidos a partir de 100 amostras de tamanho n = 50 e selecionadas a partir de uma população com média µ = 40. A partir da construção destes 100 intervalos de confiança iremos contar quantos contem µ.

(13)

* ROTINA PARA CONSTRUÇÃO DE 100 INTERVALOS DE CONFIANÇA clear

set seed 9999

* GERA 10 MIL OBSERVAÇÕES VAZIAS set obs 10000

* GERA VALORES ALEATORIOS DE UMA POPULAÇÃO NORMAL * COM MÉDIA MU = 40 E DESVIO PADRÃO SIGMA = 20 gen x = rnormal(40, 20)

* SALVA ESTES DADOS COMO UMA POPULAÇAO DE DADOS save "D:\ECN26\pop.dta", replace

* CRIA UMA VARIAVEL ESCALAR COM O VALOR DA MÉDIA DA POPULAÇÃO scalar mu = 40

* CRIA UMA MACRO LOCAL PARA CONTAR (INICIALIZA COM ZERO) local contador = 0

* INICIA “LOOP” COM 1000 LAÇOS PARA SELECIONAR 1000 * AMOSTRAS DA MESMA POPULAÇÃO E CALCULAR A MÉDIA * AMOSTRAL E OS LIMITES DOS INTERVALOS

forvalues i=1(1)1000 {

* ABRE A POPULAÇÃO CRIADA ANTERIORMENTE use "D:\ECN26\pop.dta", clear

* SELECIONA UMA AMOSTRA ALEATORIA DE TAMANHO n = 50 sample 50, count

* CALCULA A MÉDIA DA AMOSTRA (VALOR ARMAZENADO EM r(mean) summa x

* CALCULA LIMITES DO INTERVALO DE CONFIANÇA scalar li = r(mean) - invnormal(.975)*20/sqrt(50) scalar ls = r(mean) + invnormal(.975)*20/sqrt(50) * TESTA SE MU CAI DENTRO DOS LIMITES

(14)

if mu > li & mu < ls {

local contador = ‘contador’ + 1 } }

* APRESENTA O VALOR DO CONTADOR APÓS AS 1000 REALIZAÇÕES disp "contador = ", ‘contador’

* APAGA O ARQUIVO DE DADOS DA POPULAÇÃO erase "D:\ECN26\pop.dta"

(15)

Intervalo de confiança para a média da população µ

X

I O resultado apresentado a partir da execução desta rotina é que sendo selecionadas 1000 amostras da mesma população, construindo-se 1000 intervalos de confiança, 950 destes intervalos contem o valor do parâmetro µ = 40.

I Neste caso conhecemos o valor de µ para podermos realizar a simulação. Na prática não conhecemos µmas podemos construir um intervalo em torno de X e fazermos uma afirmação (com base neste intervalo) a respeito da probabilidade de µ estar contido neste único intervalo.

(16)

Intervalo de confiança para amostras pequenas

Quando temos uma amostra pequena (n < 30) e desconhecemos o valor de σ não podemos usar o valor do desvio padrão amostral (s =

r Pn

i =1(Xi−X ) 2

n−1 ) no lugar de σ e não podemos usar a

distribuiçao normal padrão. Se a distribuição de X for normal temos que usar a distribuição t de Student de acordo com a seguinte expressão:

P(X − t1−α/2× sX < µ < X + t1−α/2× sX) = 1 − α (3)

O valor da variável aleatória t de Student irá depender do número de graus de liberdade e do nível de confiança 1 − α. O número de graus de liberdade é igual a n − 1, porque perdemos um grau de liberdade ao estimarmos a média amostral X .

Vamos desenvolver uma pequena rotina do Stata para calcular alguns valores de t para algusn pares de valores de 1 − α e do número de graus de liberdade df :

(17)

Distribuição t de Student

* ROTINA STATA PARA CONSTRUIR PEQUENA TABELA PARA A DISTRIBUIÇÃO t de STUDENT *

clear

matrix C = J(27,7,0) forvalues i=2(1)27 { matrix C[‘i’,1] = ‘i’ + 3 } local j = 1 foreach k in .10 .05 .025 .01 .005 .001 { local j = ‘j’ + 1 matrix C[1,‘j’] = ‘k’ } forvalues i = 2(1)27 { local j = 1 foreach k in .10 .05 .025 .01 .005 .001 { local j = ‘j’ + 1

matrix C[‘i’,‘j’] = invttail(‘i’ + 3,‘k’) }

}

matrix list C svmat C, names(C) format C2-C5 %5.4f

xmlsave "D:\ECN26\APOSTILA DE ESTATISTICA\TABELA DISTRIBUIÇÃO t de STUDENT.xml", doctype(excel) replace

(18)

Distribuição t de Student

Esta rotina gera a seguinte tabela:

1 − α/2 0.1 0.05 0.025 0.01 0.005 0.001 graus de liberdade 5 1.4759 2.0150 2.5706 3.3649 4.0321 5.8934 6 1.4398 1.9432 2.4469 3.1427 3.7074 5.2076 7 1.4149 1.8946 2.3646 2.9980 3.4995 4.7853 8 1.3968 1.8595 2.3060 2.8965 3.3554 4.5008 9 1.3830 1.8331 2.2622 2.8214 3.2498 4.2968 10 1.3722 1.8125 2.2281 2.7638 3.1693 4.1437 11 1.3634 1.7959 2.2010 2.7181 3.1058 4.0247 12 1.3562 1.7823 2.1788 2.6810 3.0545 3.9296 13 1.3502 1.7709 2.1604 2.6503 3.0123 3.8520 14 1.3450 1.7613 2.1448 2.6245 2.9768 3.7874 15 1.3406 1.7531 2.1314 2.6025 2.9467 3.7328 16 1.3368 1.7459 2.1199 2.5835 2.9208 3.6862

(19)

Distribuição t de Student

1 − α/2 0.1 0.05 0.025 0.01 0.005 0.001 graus de liberdade 17 1.3334 1.7396 2.1098 2.5669 2.8982 3.6458 18 1.3304 1.7341 2.1009 2.5524 2.8784 3.6105 19 1.3277 1.7291 2.0930 2.5395 2.8609 3.5794 20 1.3253 1.7247 2.0860 2.5280 2.8453 3.5518 21 1.3232 1.7207 2.0796 2.5176 2.8314 3.5272 22 1.3212 1.7171 2.0739 2.5083 2.8188 3.5050 23 1.3195 1.7139 2.0687 2.4999 2.8073 3.4850 24 1.3178 1.7109 2.0639 2.4922 2.7969 3.4668 25 1.3163 1.7081 2.0595 2.4851 2.7874 3.4502 26 1.3150 1.7056 2.0555 2.4786 2.7787 3.4350 27 1.3137 1.7033 2.0518 2.4727 2.7707 3.4210 28 1.3125 1.7011 2.0484 2.4671 2.7633 3.4082 29 1.3114 1.6991 2.0452 2.4620 2.7564 3.3962 30 1.3104 1.6973 2.0423 2.4573 2.7500 3.3852

(20)

Intervalo de confiança para a proporção populacional

I Da mesma forma que construimos um intervalo de confiança para a média µX da população, também podemos construir

um intervalo de confiança para a proporção populacional p

I Suponhamos que em uma população eleitores, uma proporção p de eleitores tenha intenção de votar em determinado candidato.

I Iremos definir uma variável aleatória de Bernoulli X de forma que:

Xi = 1 se a i-ésima pessoa tenha a intenção de votar no candidato

Xi = 0 se a i-ésima pessoa não tenha a intenção de votar no

(21)

Intervalo de confiança para a proporção populacional

I Se selecionarmos aleatoriamente (amostra aleatória simples com reposição) uma amostra de tamanho n de eleitores, o número total de eleitores dentro da amostra que tem a intenção de votar no candidato (Pn

i =1Xi) segue uma

distribuição binomial com parâmetros n e p.

I A proporção amostral de eleitores ˆp =Pn

i =1Xi/n que pode

ser interpretada como sendo uma média amostral de uma variável aleatória Bernoulli.

I Pelo Teorema do Limite Central ˆp terá distribuição normal quando n → ∞.

(22)

Intervalo de confiança para a proporção populacional

I A questão é saber qual é a média (esperança matemática) de ˆ

p, ou seja, E (ˆp) e qual é a variãncia de ˆp, ou seja, var (ˆp) = σ2_ˆ_p.

I Podemos demonstrar que E (ˆp) é p, ou seja, ˆp é um estimador não viesado para p.

I Isto significa que se slecionarmos todas as amostras de mesmo tamanho n e calcularmos para cada uma delas uma proporção amostral ˆp, a média de todas estas proporções amostrais será igual ao valor do parâmetro p.

(23)

Intervalo de confiança para a proporção populacional

I Para demonstrar isto basta pensar ˆp como sendo uma média de uma variável aleatória Bernoulli calculada para os n elementos de uma amostra. Como a média amostral é um estimador não viesado para a média populacional mostramos que E (ˆp) = p.

I A variância de ˆp é dada por var (ˆp) = var (1_nPn

i =1Xi) = _n12 × np(1 − p) =

p(1−p)

n já que o

somatório é uma variável aleatória binomial.

I Podemos então dizer que para n → ∞, ˆp segue aproximadamente uma distribuição normal com média E (ˆp) = p e variância var (ˆp) = p(1−p)_n

(24)

Intervalo de confiança para a proporção populacional

I Para construirmos um intervalo de confiança para a proporção populacional (e seguindo as mesmas operações que usamos no caso da média da população µX podemos utilizar a expressão:

P(ˆp −z1−α/2× s p(1 − p) n < p < ˆp +z1−α/2× s p(1 − p) n ) = 1−α (4)

I Observe que na expressão (3) caimos em um círculo vicioso; para construirmos um intervalo de confiança para p

precisamos do valor de p.

I Na prática, temos apenas o valor de ˆp e substituimos este valor na expressão (3) conduzindo a:

P(ˆp −z1−α/2× s ˆ p(1 − ˆp) n < p < ˆp +z1−α/2× s ˆ p(1 − ˆp) n ) = 1−α (5)

(25)

Intervalo de confiança para a proporção populacional

Um exemplo: suponhamos que uma amostra de tamanho n = 50 de eleitores tenha 30 eleitores a favor de um determinado

candidato. O intervalo de confiança de 95 % de probabilidade para a proporção populacional p será:

P(30₅₀ − 1, 96 × r 30 50(1− 30 50) 50 < p < 30 50+ 1, 96 × r 30 50(1− 30 50) 50 ) = 0, 95 P(0, 4642 < p < 0, 7358) = 0, 95

Se quisermos calcular um intervalo de confiança de 80 % de probabilidade: P(30₅₀− φ−1_{(.90) ×}q3050(1−3050) 50 < p < 30 50+ φ −1_{(.90) ×}q3050(1−3050) 50 ) = 0, 80 P(0, 51121 < p < .68878) = 0, 80

(26)

Intervalo de confiança para a proporção populacional

I Duas questões sobre este último intervalo:

1) Porque usamos φ−1(.90)? Como o intervalo é de 80% deverá deixar 10% em cada cauda. Então o limite superior terá que deixar uma área a esquerda de 90% e o limite inferior deixará uma área a esquerda de 10%.

2) Repare que o intervalo (quando passamos de 90% para 80%) contrai-se. O que já havíamos dito: mantido o mesmo tamanho da amostra, quando diminuimos o nível de confiança a precisão do intervalo aumenta (porque a amplitude do intervalo reduz).

(27)

Determinação do tamanho da amostra

I Até o momento mostramos como calcular os limites de um intervalo quando conhecemos X ou ˆp e o tamanho da amostra n.

I Mas se quisermos resolver o problema inverso: temos o tamanho do intervalo e desejamos conhecer o tamanho da amostra n. Este deve ser o tamanho da amostra necessário para construir um intervalo de confiança com determinado nível de confiança e determinado erro de amostragem.

I Para o caso da estimação do parâmetro µ, a metade do tamanho do intervalo, que chamamos erro de amostragem, é igual a:

e = z1−α/2× σ_X = z1−α/2× σX/

√

(28)

Determinação do tamanho da amostra

I Fazendo uma manipulação algébrica da expressão (5) temos:

n = _z 1−α/2× σX e 2 (7)

I Por exemplo, desejamos estimarmos µX, com um erro de

amostragem e = 10, com σX = 20 e nível de confiança

1 − α = 0, 95. I Para 1 − α = 0, 95 então, 1 − α/2 = 0, 975 e φ−1(0, 975) = 1.959964 I n =z1−α/2×σX e 2 =1.959964×20₁₀ 2 = 15.36

(29)

Determinação do tamanho da amostra

I Então concluimos que para estimar a média populacional µX e

com um erro de amostragem e = 10 , com σX = 20 e nível de

confiança 1 − α = 0, 95, precisamos de uma amostra de tamanho n = 16.

I Para uma amostra com as mesmas características e nível de confiança 1 − α = 0, 99, precisamos de n = 27 (faça as contas).

I Podemos observar que para determinar o tamanho da amostra para estimar µX sempre precisamos do valor de σX. Na

prática, este valor é desconhecido.

I Precisamos primeiro realizar uma amostra piloto para estimar σX através de sX =

r Pn

i =1(Xi−X ) 2

n−1 (que é um estimador não

(30)

Determinação do tamanho da amostra (amostragem pelas

proporções)

I Para o caso da determinação do tamanho da amostra quando o objetivo é estimar p, o erro de amostragem é dado por:

e = z1−α/2× σˆp= z1−α/2×

s

p(1 − p)

n (8)

I Manipulando os termos da expressão (7), temos:

n = z 2

1−α/2× p(1 − p)

e2 (9)

I Se o objetivo da amostragem é o de justamente estimar p, substituimos na expressão (8), o valor de p que torna máximo o valor de n (ou seja, trabalhamos a favor da segurança). Neste caso p = 0, 5.

(31)

Determinação do tamanho da amostra (amostragem pelas

proporções)

I Até o momento estamos considerando que a nossa amostra é realizada com reposição e neste caso não precisamos fazer correção de população finita no caso em que _Nn > 0, 05.

I Quando a amostragem é feita com reposição, uma expressão mais exata para o erro de amostragem é:

e = z1−α/2× σpˆ = z1−α/2× s p(1 − p) n × N − n N − 1 (10)

I Exercício: determinar uam expressão para n a partir da expressão (9).

(32)

Intervalo de Confiança - exercícios

1) Numa fábrica de computadores a administração pretende-se uma estimativa para o tempo médio de vida de um determinado tipo de disco rígido. Para tal, foi seleccionada uma amostra constituída por 15 computadores. Com base nesta amostra

obteve-se um tempo médio de vida igual a 27 350 horas. Supondo que o tempo de vida segue uma distribuição normal com σv igual a 3000 horas, construa um intervalo de confiança a 99% para o tempo médio de vida dos discos rígidos.

Solução: P(27350 − z_1−.99/2×3000_√ 15 < µX < 27350 + z1−.99/2× 3000_√ 15) = 0.99 P(27340.292 < µX < 27359.708) = 0.99

(33)

Exercícios

2) Com o objectivo de prever a produção de trigo duma certa região dividiu-se a mesma em pequenos talhões, procedendo-se em seguida ao registo, ao acaso, da produção de alguns desses talhões. Admita que a quantidade de trigo produzida por talhão tem distribuição normal com desvio padrão igual a 60 Kg. a) Determine o número mínimo de talhões que o experimentador deverá analisar se desejar garantir, com uma confiança de pelo menos 95%, que a média da amostra difira no máximo 30 Kg do verdadeiro valor da produção média por talhão. b) Qual o número mínimo de talhões que será necessário analisar se o nível de confiança exigido for de 99%? c) Acha que a hipótese de normalidade é essencial na resolução das alíneas a) e b)? Justifique a resposta.

(34)

Exercícios

Solução: a) n =z1−α/2×σX e 2 =φ−1(1−.05/2)×60₃₀ 2 =1.959964×60₃₀ 2 = 15, 36 b) n =z1−α/2×σX e 2 =φ−1(1−.01/2)×60₃₀ 2 =2.5758293×60₃₀ 2= 26, 53

c) A hipótese de normalidade é essencial pois do contrário X não teria distribuição normal para os tamanhos de amostra.

(35)

Exercícios

3) Um fabricante produz peças que obedecem a uma norma que especifica que o seu diâmetro deve ser igual a 100 mm. Admita que os diâmetros das peças produzidas são N(μ, σv) e que uma amostra aleatória de 20 peças conduziu aos resultados seguintes:

P20

i =1xi = 1999, 60 e Pni =1(xi− x )2 = 111, 91

a) Construa um I. C. a 95% para o diâmetro médio das peças. b) Construa um I. C. a 95% para a variância do diâmetro das peças.

(36)

Exercícios

Solução: Quando o tamanho da amostra é pequeno e não se

conhece o valor de σ não é apropriado usar no lugar de σ o valor do desvio-padrão da amostra (s =

r Pn

i =1(Xi−X ) 2

n−1 ) pois isto produz

resultados incorretos. Ao invés disso, utiliza-se a distribuição t de Student. Para isto é necessário que a distribuição de X seja normal. A regra geral é que quando temos uma amostra grande (n ≥ 30) utiliza-se a distribuição normal padrão e quando temos uma amostra pequena (n < 30), utiliza-se a distribuição t de Student, desde que a distribuição de X seja normal. Utilizaremos a expressão: P(X − t1−α/2× sX < µ < X + t1−α/2× sX) = 1 − α P(1999.6₂₀ −t_1−α/2×q111.91 20−1 < µ < 1999.6 20 +t1−α/2× q 111.91 20−1) = 0.95 O valor de t1−α/2 para um intervalo de 95% de probabilidade é o valor que deixa uma cauda a direita de 0.025 e com 19 graus de liberdade este valor é t = 2.0930. Portanto:

P(1999.6₂₀ −2.0930×q111.91₂₀₋₁ < µ < 1999.6₂₀ +2.0930×q111.91₂₀₋₁) = 0.95 P(94.900431 < µ < 105.05957) = 0.95

(37)

Exercícios

4) Num determinado período pré eleitoral foi realizada uma sondagem com o objectivo de analisar a popularidade de dois candidatos A e B num determinado distrito. Para tal, foram inquiridas 780 pessoas residentes nesse distrito manifestando-se 55% dos inquiridos a favor do candidato A.

a) Construa um intervalo de confiança a 90%, 95% e 99% para a percentagem de pessoas do distrito que são a favor do candidato A. Comente as diferenças obtidas para os três intervalos. b) Suponha que a percentagem obtida resultou de uma amostra de 1020 pessoas. Determine um intervalo de confiança a 95% para a percentagem de pessoas a favor do candidato A. Comente o resultado obtido. Solução: a) P(ˆp − z_1−α/2×qˆp×(1−ˆ_n p) < p < ˆp + z_1−α/2×qˆp×(1−ˆ_n p)) = 1 − α P(0.55 − z_1−0.10/2×q0.55×(1−0.55)₇₈₀ < p < 0.55 + z_1−0.10/2×q0.55×(1−0.55)₇₈₀ ) = 0.90 P(0.55 − z_1−0.10/2×q0.55×(1−0.55)₇₈₀ < p < 0.55 + z_1−0.10/2×q0.55×(1−0.55)₇₈₀ ) = 0.90 z1−0.10/2= z0.95= φ−1(0.95) = 1.6448 P(0.55 − 1.6448 × q 0.55×(1−0.55) 780 < p < 0.55 + 1.6448 × q 0.55×(1−0.55) 780 ) = 0.90

(38)

Exercícios

P(0.5207 < p < .5793) = 0.90 Da mesma forma: P(0.55 − z1−0.05/2× q 0.55×(1−0.55) 780 < p < 0.55 + z1−0.05/2× q 0.55×(1−0.55) 780 ) = 0.95 z_1−0.05/2= z0.975= φ−1(0.975) = 1.9599 P(0.55 − 1.9599 × q 0.55×(1−0.55) 780 < p < 0.55 + 1.9599 × q 0.55×(1−0.55) 780 ) = 0.95 P(0.5151 < p < 0.5849) = 0.95 Da mesma forma: P(0.55 − z1−0.01/2× q 0.55×(1−0.55) 780 < p < 0.55 + z1−0.01/2× q 0.55×(1−0.55) 780 ) = 0.99 z_1−0.01/2= z0.995= φ−1(0.995) = 2.5758 P(0.55 − 2.5758 × q 0.55×(1−0.55) 780 < p < 0.55 + 2.5758 × q 0.55×(1−0.55) 780 ) = 0.99 P(0.5041 < p < .5959) = 0.99

(39)

Exercícios

b) P(0.55 − z_1−0.05/2× q 0.55×(1−0.55) 1020 < p < 0.55 + z_1−0.05/2× q 0.55×(1−0.55) 1020 ) = 0.95 z1−0.05/2= z0.975= φ−1(0.975) = 1.9599 P(0.55 − 1.9599 × q 0.55×(1−0.55) 1020 < p < 0.55 + 1.9599 × q 0.55×(1−0.55) 1020 ) = 0.95 P(0.5195 < p < .5805) = 0.95

O resultado mostra que quando aumentamos o tamanho da amostra, mantendo o mesmo nível de confiança (95%), o tamanho (amplitude) do intervalo diminui (aumenta a precisão da

(40)

Exercícios

5) Admita que a direcção de determinada Universidade se dispõe a oferecer aos seus 3800 alunos a possibilidade de estes frequentarem aulas ao Sábado de manhã se a procura para este horário for suficientemente alta. a) Determine a dimensão apropriada da amostra de alunos a inquirir para que a amplitude do intervalo de confiança a 95% para a proporção de alunos com interesse por aquele horário não exceda 0.1? b) Suponha que após realizada a amostragem com o tamanho indicado pelo dimensionamento, o valor da proporção amostral é de 50%. Determine um intervalo de confiança para a proporção populacional de 95% de probabilidade.

Solução:

O erro de amostragem paar uma estimativa de proporção populacional p (quando consideramos que a amostragem é realizada sem reposição) é dado pela seguinte expressão: e = z1−α/2× σˆp× q N−n N−1 = z1−α/2× q p×(1−p) n × q N−n N−1

(41)

Exercícios

Elevando ambos os termos desta expressão, temos: e2= z_1−α/22 ×p×(1−p)_n ×N−n_N−1 e2_{× n × (N − 1) = z}2 1−α/2× p × (1 − p) × (N − n) e2×n ×(N −1)+z2 1−α/2×p ×(1−p)×n = z 2 1−α/2×p ×(1−p)×N n(e2× (N − 1) + z2 1−α/2× p × (1 − p)) = z1−α/22 × p × (1 − p) × N n = z 2 1−α/2×p×(1−p)×N e2_×(N−1)+z2 1−α/2×p×(1−p)

Esta é a expressão para determinar o tamanho de uma amostra para estimarmos a proporção populacional e quando a amostragem é sem reposição. Neste caso temos que considerar o fator de correção da população finita nos cálculos.

(42)

Exercícios

Substituindo os valores do enunciado na expressão anterior: n = _0.12_{×(3800−1)+1.9599}1.95992×0.5×(1−0.5)×38002_{×0.5×(1−0.5)} = 93.68 ' 94 b) P(0.50 − 1.9599 × q 0.50×(1−0.50) 94 × q 3800−94 3800−1 < p< 0.50 + 1.9599 × q 0.50×(1−0.50) 94 × q 3800−94 3800−1) = 0.95 P(0.4001 < p < 0.5998) = 0.95

Reparem que o erro de amostragem do intervalo é praticamente igual a 0.10. Seria isto uma coincidência?

(43)

Exercícios

6) Num estudo de mercado quantas pessoas devem ser inquiridas para, com 95% de confiança, se cometer um erro de estimativa da verdadeira proporção de potenciais clientes de um novo produto inferior a 3%? E para se cometer um erro de estimativa inferior a 1%?

(44)

Exercícios

7) Considere uma amostra aleatória obtida no mercado de trabalho de uma grande cidade, constituída por 2000 indivíduos. Das entrevistas efectuadas constatou-se que 165 pessoas responderam não ter emprego. a) Construa um intervalo de confiança a 95% para a proporção média de indivíduos desempregados na referida cidade. b) Caso pretenda reduzir para metade a amplitude do intervalo relativo à alínea anterior, mantendo o mesmo grau de confiança, qual a dimensão da amostra adequada? Justifique a resposta.