09_Introdução a inferência Estatística

(1)

97 Capítulo

7

7. INTRODUÇÃO A INFERÊNCIA ESTATÍSTICA

A maioria das pessoas faz uso intuitivo de informações de amostras para entender o todo e tomar decisões, por exemplo, o cliente de um empório deseja comprar unidades de um tipo de queijo e o comerciante lhe oferece um pequeno pedaço para ajudá-lo na decisão. Utilizando modelos probabilísticos procuraremos formalizar a tendência intuitiva das pessoas de fazer afirmações sobre as características de uma população, tendo como base informações contidas numa de suas amostras.

Uma característica da população a se analisar pode ser representada por uma variável aleatória. O tipo da distribuição de probabilidades desta variável ficará bem definido se forem conhecidos os parâmetros: média e variância (ou desvio padrão).

Exemplificando:

Se considerarmos a variável aleatória tendo como valores as alturas das pessoas adultas de um País, então é razoável presumir, pelo grande número de elementos, que a distribuição seja representada por uma curva normal.

Temos várias curvas normais, mas se ficarem conhecidos os parâmetros da média e variância ela fica bem caracterizada. Nestes casos a preocupação dos pesquisadores é descobrir os tais parâmetros, mesmo com valores aproximados pelos de uma amostra os quais chamaremos de estimadores.

Porque utilizar uma amostra da população?

Imagine comprovar a afirmação de que a “estatura dos adultos brasileiros é maior que dos coreanos”, teríamos de medir a todos e, pela média das alturas, confirmar ou não a afirmação. Certamente o custo de operação, o tempo envolvido, a disponibilidade das pessoas, etc, tornaria impraticável testar a afirmação. Outra situação complicada de se comprovar seria sobre a “eficiência dos palitos de fósforos acenderem” testando toda a produção da indústria.

Portanto, é razoável considerar uma amostra que julgamos ser representativa da população, analisá-la e inferir propriedades para o todo com um grau de confiabilidade. Chamamos ao conjunto de técnicas e procedimentos baseados nos resultados de amostras de Inferência Estatística.

7.1. ESTIMADORES: MÉDIA E DESVIO PADRÃO DE AMOSTRA

Consideremos uma população X com média _X e desvio padrão _X e retiremos dela uma amostra x1, x2, x3, ..., xn suficientemente grande. A média X da amostra pertence

a uma distribuição de médias amostrais, cujo valor esperado E( )X é igual a média da

população e o desvio padrão da amostra _X é igual a _X/ n: E( )X _X e X X n    (Ver apêndice 3) Exemplificando: Seja a população X: 1, 2, 3, 4.

(2)

98 Temos que: X p(X) X.p(X) (XX) 2_{. p(X)} 1 1/4 1/4 2,25 / 4 2 1/4 2/4 0,25 / 4 3 1/4 3/4 0,25 / 4 4 1/4 4/4 2,25 / 4



1 X=10/4=5/2 2 X  = 5/5

Retirando desta população (de tamanho N=4) todas as amostras de tamanho n=2,

sem reposição, teremos n

N = 42 = 16 amostras. Calculemos as médias X de cada amostra.

(1,1) (1,2) (1,3) (1,4) (2,1) (2,2) (2,3) (2,4) (3,1) (3,2) (3,3) (3,4) (4,1) (4,2) (4,3) (4,4) X 1 1,5 2 2,5 1,5 2 2,5 3 2 2,5 3 3,5 2,5 3 3,5 4 Então, X = x _i p( )x _i x_i.p

 

x _i x_i2.p

 

x _i 1 1/16 1/16 1/16 1,5 2/16 3/16 4,5/16 2 3/16 6/16 12/16 2,5 4/16 10/16 25/16 3 3/16 9/16 27/16 3,5 2/16 7/16 24,5/16 4 1/16 4/16 16/16



1 _{E( )}_{X = 40/16=5/2} 2 E(X )= 110/16

Concordando com as considerações iniciais, vemos que: a) _X = E(X) = E( )X = _X = 5/2

b) X 5 / 2 5

2 2 2 X

n

 _ _ __

Os gráficos das distribuições de X e X estão representados abaixo: Fig 7.1 Fig 7.2 E(X)= X_{= 5/2} 2 X  _{=VAR(X)=5/4 e} X X n    = 5 2 E( )_{X =}X_{= 5/2} 2 X  _{= VAR( X )=} = 2 E(X )__{( E( )}_{X )}2₌ = 2 110 5 5 / 8 16 2   _{ }    X  = VAR( )X = 5 2 2 1 2 3 4 4/16 3/16 2/16 1/16 X p( )_X 1 2 3 4 1/4 X p(X)

(3)

99 A curva normal plotada juntamente com a distribuição de X tem equação

2 1 2 1 ( ) . 2 X X x X f x e         _ _    . Observações: 1) Os elementos 1 j x e 2 j x das amostras ( 1 j x , 2 j

x ) do exemplo assumem todos os

valores da variável aleatória X.

2) Se X: N(,2) e retiramos amostras de tamanho n desta população, então a distribuição da variável X por amostragem casual simples é normal e tal que

X : N(_X,

2 n 

).

Quanto maior for o tamanho da amostra, menor será a variância de X .

3) Mesmo que X não tenha distribuição normal de probabilidades com parâmetros

 e 2, teremos, para uma amostra de tamanho n, que X N(_X,

2 n 

).

4) Se a amostra retirada de uma população finita de N elementos é de tamanho n e

sem reposição, então devemos tomar N

N 1 X n n      .

Se n for grande e N muito maior do que n (maior do que o dobro), é

indiferente utilizar a fórmula acima ou X

X n    .

EXEMPLOS:

1) Temos numa cidade 10 000 adultos. Sabendo-se que a altura média é 170cm desvio padrão 5cm, retirar uma amostra sem reposição de tamanho 100. Pede-se a média amostral e o correspondente desvio padrão.

Solução: a) _X E( )X 170cm b) 5 10000 100 0, 4975 10000 1 100 X      cm

Neste caso, o valor de _X é praticamente o mesmo se obtido pela fórmula 5 0,5 100 X n      .

2) Considerando X:N(100, 81), retiramos dessa população uma amostra de 16 elementos. Determinar:

(4)

100 a) p( X >104,5) b) p( X 103,6) c) p(98  X 102) Solução:

Sabemos que a distribuição das médias das amostras também é normal com média

X 100 X    e variância 2 2 X 81 5, 063 16 X n 

    . Aplicando a técnica apresentada em

6.3.3, temos: a) p(X 104,5) b) p( X 103,6) c) p(98  X 102) p(97,75  X 102,25) = 2. p(100 X102, 25)2. p(0Z1) = 2. (0,3400) = = 0,6800 ou 68%.

7.2. INTERVALO DE CONFIANÇA PARA A MÉDIA

Consideremos várias amostras de mesmo tamanho de uma dada população. Sabemos que muitas delas não apresentam médias iguais. Portanto, como poderemos estimar o valor da média de uma população tomando apenas uma de suas amostras e ter a confiabilidade do valor estimado?

X 100 103,6 2 100 103, 6 100 1, 6 2, 25 X X z       p(X103, 6)0,5 p(100  X103, 6) = 0,5 + p(0 Z 1,6) = = 0,5 + 0,4452 = = 0,9452 X 100 104,5 1 100 104,5 100 2 2, 25 X X z       p(X 104,5)p(z2)0,5 p(0  z 2) = 0,5 0,4772= 0,0228. ou 2,28% 3 100 97, 75 100 1 2, 25 X X Z        3 100 102, 25 100 1 2, 25 X X Z       X 100 102,25 97,75

(5)

101

Surge, a partir destas questões, a idéia de se construir intervalos de confiança, baseados na distribuição amostral do estimador pontual X . Um estimador pontual, como X e _X , apresentam um só valor a partir de uma amostra retirada da população.

O intervalo de confiança deve ser construído de forma a estimar um parâmetro

desconhecido (ex: média da população), com um grau de confiabilidade de que o verdadeiro valor do parâmetro pertença ao intervalo.

Sabemos de 6.3.5 que a probabilidade de que as observações de uma amostra se situarem a 2

 desvios padrões ao redor da média é 95,44%. Neste caso, a média da população estará incluída no referido intervalo em 95,44% das vezes. Pensando de outro modo, se retirar um número grande de amostras de mesmo tamanho e com muitos elementos, podemos dizer que em 95,44% das vezes a média da população estará no intervalo de extremos X 2_X.

Portanto,

X 2_X  _X  X 2_X e, em termos de probabilidade,

p(X 2_X  _X  X 2_X) = 0,9544.

7.2.1. INTERVALO DE CONFIANÇA PARA A MÉDIA _X DE UMA POPULAÇÃO X COM VARIÂNCIA 2

X

 CONHECIDA

Se o tamanho de uma amostra casual simples de n observações de uma população

X é suficientemente grande, podemos assegurar que a média amostral X tem distribuição

praticamente normal X : N(_X, 2/ n), conforme exposto em 7.1.

A variável aleatória X X X Z     , com X X n 

  , tem praticamente uma

distribuição normal padrão N(0,1).

A diferença X Z.

n  

  mede o erro da aproximação (estimativa) de 

por X para cada Z entre Z__{/ 2} e Z__{/ 2}, com Z__{/ 2} 0, visto serem conhecidos os valores de  (=_X) e n. O percentual  (ou %) mede o nível de confiança para o qual p(Z__{/ 2} Z  Z__{/ 2}) = (1  ) e p(Z<Z__{/ 2})= p(Z >Z__{/ 2}) = /2. Fig 7.3 0

z

-z

a/2 a/2 a/2 a/2 1 - a

(6)

102 O fato de Z variar entre Z__{/ 2} e Z__{/ 2}, faz com que o erro de aproximação

X  varie entre Z _{/ 2}. n    e Z _{/ 2}. n   , isto é, Z _{/ 2}. X Z _{/ 2}. n n    _      , Z__{/ 2}0. (I)

Duas situações se apresentam:

1ª) A média  da população é conhecida.

Temos de (I) que Z _{/ 2}. X Z _{/ 2}.

n n    _      . Logo, p( Z _{/ 2}. X Z _{/ 2}. n n         ) = 1   (II)

A probabilidade de X (média de uma amostra de n elementos) pertencer ao intervalo

,

X X

    

 

  é (1  )% e de não pertencer ao intervalo é de %.

Dizemos, neste caso, que o intervalo de confiança para a média X, ao nível de  %, é o intervalo acima descrito ou que ele é o intervalo de confiança de (1   )% para a média

X .

2ª) A média  da população não é conhecida.

Temos de (I) que X Z _{/ 2}. X Z _{/ 2}.

n n

 

 _ 

    e que (II) é equivalente a

p(X Z _{/ 2}. X Z _{/ 2}.

n n

 

 _ 

    ) = 1  . (III)

Devemos entender que  é um parâmetro e não uma variável aleatória. Assim, interpretamos (III) como se de todos os intervalos de extremos X Z _{/ 2}.

n





 a média 

pertencesse a (1   )% deles. Este resultado nos permite afirmar que estamos (1   )%

seguros de que a média da população se situa entre X Z _{/ 2}.

n    e X Z _{/ 2}. n    . Veja

que conhecemos  , o tamanho n das amostras e queZ__{/ 2} é tabelado conforme o nível  de confiança desejado, logo, Z / 2.

n

  é o mesmo (fixo) para cada X obtido das amostras.

Chamamos X Z _{/ 2}. , X Z _{/ 2}. n n      _ _      de intervalos de confiança de (1  )% para a média .

(7)

103

Nota: Os valores da média da população nos extremos do intervalo de confiança são =X Z _{/ 2}.

n





 e, para qualquer valor da média da amostra, o erro de estimativa igual a

/ 2. Z n   é mantido ao nível de  %. EXEMPLOS:

1) Consideremos uma população cuja variável aleatória X tenha distribuição normal de média 100 e variância 81. Se retirarmos dela uma amostra de 100 elementos, pede-se determinar o intervalo no qual a média X da amostra tem 90% de chance de ocorrer. Solução: Temos que 100 e 9 0,9 100 X n      . Aplicando (II), p(100Z/ 2.0,9  X  100 Z/ 2.0,9) = (1   ) = 0,90 = 90% . Assim, 1   = 0,90 e, daí,  = 0,10 ou 10%.

Visto que 10% das médias amostrais devem ocorrer em ambas as caudas da curva normal têm-se que p(Z <Z__{/ 2}) = p(Z >Z__{/ 2}) = 0,05.

Fig 7.4

Utilizando a tabela de áreas da curva normal padrão em 6.3.2 , temos que Z/ 2=Z5%=

1,64 (procurar o valor mais próximo de 0,45 no corpo da tabela que é 0,4495).

Portanto, p(100 (1, 64).0,9  X  100 (1, 64).0,9) 0,9) = 0,90, ou seja, a probabilidade de X pertencer ao intervalo [98,524 ; 101,476] é de 90% e de ter valor menor que 98,524 ou maior que 101,476 é de 10%. Isto significa que temos confiança de 90% que, numa amostra de 16 elementos, a média esteja entre 98,524 e 101,476 e de 10% de não estar nesse intervalo.

2) Uma indústria tem 1000 funcionários. Sabendo-se que a distribuição dos salários é

aproximadamente normal com 2 400. Retira-se uma amostra com 25 elementos sem reposição, cuja média dos salários é X =150,00. Obter o intervalo de confiança para a média da população ao nível de 5%. Solução: Temos que N=1000, 2 400, n=25, X =150 e 0, 05. Então, X : N(_X, _X2 ) , onde 20 1000 25 3,95 5 1000 1 X      . 0

z

-z

a/2 a/2 0,45 0,05 0,05 0,45 0,90

(8)

104

Visto que 5% das médias amostrais devem ocorrer em ambas as acudas da curva normal, temos que p(Z <Z__{/ 2}) = p(Z >Z__{/ 2}) = 0,025.

Fig 7.5

Logo, Z/ 2= Z2,5% = 1,96 (ver no corpo da tabela o valor 0,4750).

Aplicando (III), p(150(1,96).3,95    150+(1,96).3,95) = 0,95, isto é, a probabilidade de  pertencer ao intervalo [142,25 ; 157,75] é de 95% e de não pertencer é 5%.

3) Uma população tem média 50 e desvio padrão 9. Foram retiradas dessa população duas amostras com 64 elementos cada uma para estimar a média da população. As médias das

amostras são, respectivamente, 49 e 52. Analise a afirmação: a média da população 50

pertence ao intervalo de confiança de 90%, construídos a partir das médias amostrais. Solução:

Os valores das médias da população para os extremos dos intervalos de confiança de 90% em relação a cada média amostral devem ser:

_5%. (1, 64).9 1,845 8 X Z X X n        .

Observe que o erro de estimativa ao nível de 10% é igual a 1,845 para qualquer valor das médias amostrais.

1º) Se X = 49, então 49 1,845 . Assim, o valor da média da população estará entre os valores 47,155 e 50,845.

Se a média declarada da população é 50, então a afirmação de que ela esta no intervalo de confiança de 90% é verdadeira.

2º) Se X = 52, então 52 1,845 . Assim, o valor da média da população estará entre os valores 50,155 e 53,845.

Se a média declarada da população é 50, então a afirmação de que ela esta no intervalo de confiança de 90% é falsa.

4) Consideremos uma população cuja variável aleatória X tem distribuição normal com

desvio padrão  5. Retiramos uma amostra com 53 elementos e obtivemos X =48.

a) Qual é o erro de estimativa ao nível de 10%?

b) Qual deverá ser o tamanho da amostra para que o erro de estimativa seja menor ou igual a 0,5 com 95% de acerto?

Solução: Temos que  5, n = 53 e X =48. 0

z

-z

a/2 a/2 0,475 0,025 0,025 0,475 0,95

(9)

105 a) O erro de estimativa ao nível de 0,1 é dado por

_5%. _5%. (1,96). 5 1,346

53 53

X

eX   Z  Z    .

b) Queremos obter n para que p(e0,5) = 0,95.

O valor Z__{/ 2} para 0, 05 é tabelado em 1,96. Logo, pelo problema, temos e Z_5%. 0,5 n    e, daí, n385 elementos. --- EXERCÍCIOS DE APLICAÇÃO 7.1

1) Consideremos uma população tal que X: N(100,81). Retirada uma amostra de 16

elementos, pede-se determinar a probabilidade de que a média X da amostra pertença ao

intervalo ]95 , 105[. 97,36%

2) Pede-se, com base no exercício acima, o intervalo de confiança de 95% para a média da população. ]95,59 , 104,41[

3) O desvio padrão de uma população normal é igual a 12. Qual deve ser o tamanho da amostra se o erro de estimativa para a média da população ao nível de 10% é igual a 2? 97

4) Uma companhia fabrica 50000 válvulas. Retira-se uma amostra de 400 válvulas e obtém-se a vida média de 800horas e desvio padrão de 100horas:

a) qual o intervalo de confiança de 99% para a média da população? ]787,1 , 812,9[. b) com qual confiança dir-se-ia que a vida média é 8000,98? 16%.

c) que tamanho deve ter a amostra para que seja de 95% a confiança da estimativa 8007,84? 625

5) A variável aleatória X de população tem distribuição normal com desvio padrão 10. a) determine o tamanho de uma amostra para que o erro de estimativa da média ao nível de 8% seja inferior a 1. 307

b) Supondo que foi colhida uma amostra com média X=50, pede o intervalo de

confiança de 92% para a média da população. ]49 , 51[

6) Uma amostra de tamanho 36 apresentou o valor da média igual a 28,35 e desvio padrão 7,5. Obter um intervalo de confiança de 95% para a média da população. ]25,9 , 30,8[ 7) Uma pequena metalúrgica produz 100 parafusos por hora. Sabe-se que a distribuição dos diâmetros dos parafusos é normal com variância 0,16. Retira-se uma amostra com 16 elementos, sem reposição. Verifica-se que a amostra tem diâmetro médio igual a 10 mm. Obter o intervalo de confiança para a média dos diâmetros da população ao nível de 5%. ]9,8336 , 10,1663[ ---

(10)

106

7.2.2. INTERVALO DE CONFIANÇA PARA A MÉDIA  DE UMA POPULAÇÃO COM

VARIÂNCIA 2 DESCONHECIDA

A estimativa para a média de populações com variância desconhecida é feita de

acordo com o número n de elementos da amostra:

a) Se n > 30, utiliza-se a distribuição normal do estimador S2 de 2. b) Se n30, utiliza-se a distribuição “t de Student” que veremos adiante. 7.2.2.1. Distribuição normal do estimador S2 de 2 (caso (a): n > 30).

Tomemos uma amostra suficientemente grande (n > 30) de uma população e dela

obtemos X e S2: 1 1 n i i X x n  



e 2





2 2 2 1 1 1 1 . 1 1 n n i i i i S x X x n X n  n       _  _ 



_{ }



_ (Ver apêndice 4)

O fato de n ser grande tem-se que S2 2. Portanto, _X S

n

  , e, daí,

p(XZ__{/ 2}._X   XZ__{/ 2}._X) = 1.

Assim, o intervalo de confiança para a média da população ao nível de  % é

/ 2 / 2

]XZ_ ._X, XZ_ ._X[.

EXEMPLOS:

1) Suponhamos que a variável aleatória de uma população tenha distribuição normal de

probabilidades e que são desconhecidos a sua média e desvio padrão. Retiramos uma amostra com

n= 100 elementos tal que X 110 e S = 8. Obter um intervalo de confiança para  ao nível

de 10%.

Solução:

Temos n = 100, X 110, S = 8 e 0,1.

Fig 7.6

Vemos que n > 30, logo, 8 0,8

10 X

S n

    .

O valor Z__{/ 2} para  0,1 em ambas as caudas da curva é tabelado em Z5%=1,64. Devemos ter p( XZ0,05.0,8 <  < XZ0,05.0,8) = 0,90.

Portanto, p(108,68 <  < 111,31) = 0,90. O intervalo de confiança ao nível de 90% é ]108,68 ; 111,31[. 0

z

-z

a/2 a/2 0,45 0,05 0,05 0,45 0,90

(11)

107 2) Extraída uma amostra de tamanho n = 36 de uma população de variável aleatória X

normal, verificou-se que X 28 e S = 7,5. Estimar o intervalo da média da população considerando-a pertencer a um intervalo de confiança de 95%.

Solução:

Temos n = 36, X 28, S = 7,5 e 0, 05.

Vemos que n > 30, logo, 7,5 1, 25

6 X

S n

    .

O valor Z__{/ 2} para 0, 05 em ambas as caudas da curva é tabelado em Z2,5%=1,96. Devemos ter p( XZ0,025.1,25 <  < XZ0,025.1,25) = 0,95.

Portanto, p(25,55 <  < 30,45) = 0,95. O intervalo de confiança ao nível de 95% é ] 25,55 ; 30,45[.

3) Uma amostra de tamanho n = 36 de uma população de variável aleatória X normal,

apresentou X 11,3 e S = 2,34 .

a) Obter o intervalo de confiança de 95% para a média  da população e o correspondente erro de estimativa.

b) Qual deve ser o tamanho da amostra para que o erro de estimativa da média seja 0,5 no intervalo de confiança de 95%. Solução: a) Temos n = 36, X 11,3, S = 2,34 e 0, 055%. Logo, 2,34 0,39 36 X S n     e Z2,5%=1,96. Então, p( X(1,96).0,39 << X (1,96).0,39) = p(10,5356 < < 12,0644)=0,95 O intervalo de confiança de 95% para a média da população é ]10,5344 ; 12,0644[. O erro de estimativa é dado por

e = X = Z2,5% . S

n = 1,96 . 0,39 = 0,7644.

b) Se o erro de estimativa da média  é fixado em 0,5 para um intervalo de confiança de 95%, então e = X = Z2,5% . S n = 0,5. Portanto, 1,96 . 2, 34 n = 0,5 e, daí, n  84,14, isto é, n = 85.

Nota: A comparação entre os erros de estimativa dos itens (a) e (b) nos fez perceber que a

medida que o tamanho da amostra aumenta, para um certo nível de confiança, o erro de estimativa para a média diminui.

7.2.2.2. Estimação de proporções ou intervalos de confiança para proporções (n>30)

Vamos considerar populações e observar uma de suas características: Ser eleitor de determinado candidato a prefeito, estar aprovado num concurso, possuir uma doença específica, etc. A variável aleatória X da população deve possuir apenas dois valores:

(12)

108  1 para a ocorrência da característica (sucesso) e

 0 para a não ocorrência da característica (fracasso).

Supondo que a proporção de elementos com a certa característica seja p, temos: p(x=1) = p e p(x=0) = 1 p.

X p(X) X . p(X) X 2 . p(X)

0 q 0 0

1 p p p



p+q = 1 E(X) = p E(X 2) = p

= E(X) = p e VAR(X) = E(X2)  (E(X))2 = p  p2 = p(1 p) = p q.

Tomemos uma grande amostra casual simples Y: x1, x2, x3, ... , xn. (n ) de

uma população tal como nos referimos acima, onde a proporção p se mantém para cada evento xi , i = 1,2,3, ... , n, da amostra.

A variável aleatória Y: B(n, p), sendo E(Y) = np e VAR(Y) = npq .

Seja x o número de sucessos na amostra (número de elementos com a

característica que se quer estudar). Definimos p =x

n (proporção de sucessos na amostra)

como sendo um estimador de p.

A distribuição de p é aproximadamente normal para n > 30:

p  N(p, pq n ) e p p p Z   

 tende assintóticamente para N(0,1) a medida que n aumenta. Então,

p p p Z    N(0,1) (IV)

Visto que cada um dos xi , i = 1,2,3, ... , n, assumem valores 1 ou 0, temos que

x = x1+ x2 + x3 + ... + xn . Assim, 1 2 3 ... p = x x x x xn E(Y) p n n n        .

O estimador p é não-viesado (apêndice 4), para grandes amostras, pois:

E(p ) = E( x n) = 1 n E(x) = 1 n E( 1 n i i x 



) = 1 n 1 E( ) n i i x 



= 1 n. np = p e VAR(p ) = VAR( x n) = 2 1 n VAR(x) = 2 1 n VAR( 1 n i i x 



) = 1₂ n 1 VAR( ) n i i x 



= 1₂ n .npq = pq n .

(13)

109

Nota: Se a proporção p for desconhecida e a amostra com reposição for suficientemente

grande tomamos um valor inicial p₀ x

n

 para a estimativa de p e verificamos que

0 0 p

p .q

n

  .

Alguns autores admitem que uma amostra é suficientemente grande se n.p5 e

nq5.

Temos de (IV) que o erro de aproximação de p por p é dado por

e = p  p = Z. pq

n .

Supondo conhecidos p, q e n, se Z assumir valores entre Z/ 2 e Z/ 2, teremos o

erro entre Z/ 2 pq n e Z/ 2 pq n , isto é, Z__{/ 2} pq n  p  p  Z/ 2 pq n , Z/ 2 0. (V)

onde  % é o nível de confiança com o qual determinamos Z__{/ 2}.

Considerando (V), temos que pZ__{/ 2} pq

n  p  p + Z/ 2 pq n ou, ainda, p Z/ 2 pq n  p  p + Z/ 2 pq n .

Analogamente ao exposto em 7.2.1, teremos:

a) p(pZ__{/ 2} pq n  p  p + Z/ 2 pq n ) = 1   , isto é, a probabilidade de p pertencer ao intervalo [pZ__{/ 2} pq n ; p + Z/ 2 pq n ] é de (1   )% e de não pertencer é de  %. b) p(p Z__{/ 2} pq n  p  p + Z/ 2 pq n ) = 1  . Assim, a probabilidade de p pertencer ao intervalo [p Z/ 2 pq n ; p + Z/ 2 pq n ] é de (1  )% e de não pertencer é de %.

(14)

110

EXEMPLOS:

1) A proporção de pessoas que são favoráveis ao novo imposto para complementar o orçamento do ministério da saúde é 40%. Tomemos uma amostra de 500 pessoas dessa população. Determinar o intervalo de confiança de 90% para a proporção das pessoas favoráveis ao novo imposto.

Solução: Temos p = 0,40, q = 0,60, n = 500 e _p 0, 4.0, 6 0, 022 500    . Fig 7.7

Utilizando a tabela de áreas da curva normal padrão em 6.3.2, temos que

0,05 1, 64 Z  .

Temos de (a) que p(0,40 (1,64)0,022 p  0,40+(1,64)0,022) = 0,90, isto é,

p(0,3648  p 0,4352) = 0,90.

A probabilidade de p pertencer ao intervalo [0,3648 ; 0,4352] é de 90% e de não pertencer é de 10%.

Podemos dizer que a proporção de pessoas favoráveis ao imposto varia entre 36,48% e 43,52% com confiabilidade de 90% e que o erro de estimativa é de

e=(1,64)(0,022)=0,036 ou 3,6%.

2) Um político deseja saber qual a proporção de votos que teria para se eleger deputado federal. Uma pesquisa de intenções de voto revelou que entre 500 pessoas ele obteve 20 votos. Definir os limites de confiabilidade de 99% para a proporção populacional.

Solução: Temos n = 500, x = 20. Logo, p₀ 20 0, 04 500 x n    e q₀0,96. Assim, 0 0. 0 p p q 0, 04.0,96 0, 00876 500 n     . Fig 7.8 0

z

-z

a/2 a/2 0,45 0,05 0,05 0,45 0,90 0

z

-z

a/2 a/2 0,495 0,005 0,005 0,495 99% 5% 5%

(15)

111 Sabendo-se queZ__{/ 2} Z_0,5%2,57, temos p(

0 0

0 0,5% p 0 0,5% p

p Z   p p Z  )=

0,99, isto é, p(0,04(2,57)0,00876 p  0,04+(2,57)0,00876) = p(0,0174 p 0,0625) = 0,99.

A proporção de pessoas que votarão no político varia entre 1,74% e 6,25% com confiabilidade de 99% e erro de estimativa de 2,25%.

3) Deseja-se saber a quantidade de eleitores de determinada região que votarão no candidato A, de forma que a probabilidade de erro de estimação seja no máximo de 3%, com 95% de confiança. Para estudar o problema, retira-se uma amostra de 500 eleitores obtendo-se 120 que votam de A.

Solução: Temos n = 500, x = 120. Logo, p₀ 120 0, 24 500 x n    e q₀0,76. Queremos e = p  p = Z _{/ 2} p.q n   0,03.

Considerando o intervalo com confiabilidade de 95%, segue que

/ 2 2,5% 1,96

Z_ Z  . Assim, e = 1,96 0, 24.0, 76 0, 03

n   n 779 eleitores.

7.3. Distribuição de t de Student (n30)

Existem casos que não é possível obter amostras grandes, pois são poucos os

dados disponíveis da população.

A forma da distribuição das médias amostrais de pequenas amostras dependera da forma da distribuição da população e, neste caso, o desvio padrão da amostra não será um bom estimador do desvio padrão da população.

Estudaremos apenas o caso de população com distribuição normal, assim, podemos estimar a média desta população com amostras pequenas.

Sabemos que a variável

X X

Z 





 tem distribuição normal, sendo

1 1 n i i X x n  



, ( ) X E X    e _X n    .

Utilizar S2 para estimar 2: Se não conhecermos 2 devemos tomar

S2 = 2 2 2 1 1 1 1 ( ) . 1 1 n n i i i i x X x n X n  n      _  _





_{ }



_ e, com ele, obter X X

S S n    . A distribuição da variável X X t S   

 é normal e chamada de distribuição t de

Student, com  graus de liberdade.

 O número de graus de liberdade  é igual ao número de informações

independentes da amostra (n) menos o número (k) de parâmetros da população a serem estimados além do parâmetro inerente ao estudo  = n  k. (Estatística Básica –Vol2- L.G.Morettin)

(16)

112 Se vamos estimar a média da população (parâmetro inerente) com uma amostra de tamanho n (informações independentes) e necessitamos estimar 2 (único parâmetro diferente do inerente), então  = n  1.

Os gráficos abaixo comparam as distribuições de t de Student e de Z (distribuição

normal padrão):

Fig 7.9

Existe uma família de distribuição t de Student em função do número de graus de liberdade, isto é, a cada valor de  corresponde a uma curva t que se aproxima da curva Z a

medida que n aumenta, tornando maior o valor de .

Uso da tabela t de Stdent: (página 126)

A tabela relaciona t_ com p(t > t_) =  .

Fig 7.10

EXEMPLOS:

1) Dados =10 e  =5%, pede t_ tal que p(t > t_) = .

Solução:

Devemos ter que p(t > t_) = 5% = 0,05. Utilizando a tabela t de Student, linha 10 e coluna 0,05, vemos que t_= t_10,(5%)= 1,8125.

Geometricamente, Fig 7.11 t 0 Z t 0 a a t t 0 0,05 1,8125 t

(17)

113 2) Dados =10 e  =5%, pede t_ tal que p(t < t_) = .

Solução:

Devemos ter p(t < t_) = 5% = 0,05 ou, de modo equivalente, p(t > t_) =0,05. Utilizando a tabela t de Student, linha 10 e coluna 0,05, vemos que t_= t_10,(5%)= 1,8125. Geometricamente,

Fig 7.12

3) Dados =15 e p(t > t) =0,975, pede t. Solução:

Devemos ter p(t > t_) = 0,975 ou, então, que p(t < t_) = 0,025. Analogamente ao exemplo (2), consultamos a linha 15 e coluna 0,025 da tabela t de Student, obtendo t_=

15,(2,5%) t = 2,1315. Geometricamente, Fig 7.13 4) Dados =20 e p( t > t) = 0,10, pede t. Solução:

Devemos ter p( t > t_) = 0,10 e, daí, entender que p(t < t_) = 0,05 ou p(t > t_) = 0,05. Analogamente aos exemplos (1) e (2), consultamos a linha 20 e coluna 0,05 da tabela t de Student, obtendo t_= t_20,(5%)= 1,7247.

Geometricamente, Fig 7.14 t 0 0,05 -1,8125 t t 0 0,975 -2,1315 t t 0 0,90 -1,7247 t 0,05 1,7247 0,05

(18)

114 5) Dados =50 e p( t < t) = 99%, pede t.

Solução:

Devemos ter p( t < t) = 0,99 ou, de outro modo, que p( t > t) = 0,01 e, daí,

entender-se que p(t < t_) = p(t > t_) = 0,005. Analogamente aos exemplos (4), consultamos a linha 50 e coluna 0,005 da tabela t de Student, obtendo t_= t_50,(0,5%)= 2,6778..

Geometricamente,

Fig 7.15

6) Retirou-se uma amostra de 16 elementos de uma população normal com parâmetros

desconhecidos. Determinar um intervalo de confiança para a média  da população ao

nível de 5%, sabendo-se que na amostra tem-se X 10 e S2_{= 25.} Solução: Temos 5 1, 25 16 X S S n    ,   n 1 16 1 15  e t_15,(2,5%) 2,1315. Então, p(10  2,1315. 1,25    10 + 2,1315. 1,25) = 0,95 p(7,3356    12,6644) = 0,95 IC = [7,3356, 12,6644] Fig 7.16 --- EXERCÍCIOS APLICAÇÃO 7.2

1) Sabe-se apenas que uma variável aleatória X de uma população tem distribuição normal.

Colhida uma amostra com 64 elementos dessa população, verificou-se que X=203 e S=12.

Obter ao nível de 5% o:

a) erro de estimativa para a média da população. e= 2,94 b) intervalo de confiança para a média da população. ]200,06 , 205,94[

2) Uma amostra de tamanho 144 foi extraída de uma população com variável aleatória X

normal e apresentou X=21,3 e S=1,2. Obter ao nível de 10% o:

a) erro de estimativa para a média da população. e = 0,164 b) intervalo de confiança para a média da população. ]21,036 , 21,364[ c) tamanho da amostra para queo erro de estimativa da média seja 0,0984. n=400

3) Uma amostra de cadarços de sapatos foi colhida na linha de produção de uma máquina, conforme o indicado na tabela abaixo:

t 0 99% -2,6778 t 0,5% 2,6778 0,5% t 0 95% -2,1315 t 2,5% 2,1315 2,5%

(19)

115

n de cadarços 1 5 11 8 3 2

Medidas (cm) 31,5 32,5 33,5 34,5 35,5 36,5

Obter ao nível de 10% o :

a) erro de estimativa para a média da população. e = 0,358 b) intervalo de confiança para a média da população. ]33,572 , 34,288[

4) O Síndico de um prédio de apartamentos informou aos condôminos sobre o custo da colocação de um filtro de água na entrada do edifício antes do reservatório. Obteve respostas de apenas 125 proprietários, dos quais 95 concordam com a benfeitoria. É verdadeiro dizer que: a proporção de pessoas favoráveis a colocação do filtro varia entre 69,8% a 82,2% com confiabilidade de 90% e que o erro de estimativa é 0,062?

Sim 5) Deseja-se saber qual a proporção de donas de casa optam por um tipo de detergente de uma marca famosa. Uma pesquisa revelou que entre 1000 donas de casa 450 preferem o tal detergente. Definir os limites de confiabilidade de 99% para a proporção das donas de casa..

40,96% e 49,04%, com e = 4,04%. 6) Considerando o exercício acima, determinar o número mínimo de elementos de uma amostra para que o erro de estimativa não supere 8%. n =256

7) Foram retiradas de uma população com distribuição normal a amostra 6, 3, 2, 4 e 5.

Determinar um intervalo de confiança de 90% para a média  da população, considerando

a distribuição com duas caudas. ]3,1539 , 6,8461[

9) Foram consultados 21 especialistas sobre a proporção do plantio de grão para o próximo ano. As respostas indicam uma média de 10% e desvio padrão de 4,5%. Quais são os valores máximos e mínimos da proporção média do plantio, considerando um intervalo de confiança de 95%? Mín= 7,95% e Máx= 12,05

10) Um pesquisador quer determinar o peso médio do veneno que um tipo de aranha pode injetar na sua presa. Selecionou 23 aranhas de mesmo tamanho para o teste e obteve uma média de 150mg de veneno e desvio padrão de 0,3mg. Supondo a distribuição normal para o peso do veneno da população de aranhas, determinar o intervalo de convergência de 95% para a média da população. ]149,8702 , 150,1298[

11) Sabe-se que as notas dos candidatos a um vestibular nacional são normalmente

distribuídas. Uma amostra de 16 candidatos apresentou média X=7,3 pontos e desvio

padrão S=1,2 pontos. Pede-se ao nível de 5%,

a) construir o intervalo de confiança para a média  da população. ]6,66055, 7,93945[

b) o erro de estimativa para a média . e=0,63945 c) a probabilidade de  não pertencer ao intervalo de confiança acima. 5%

d) a probabilidade de  ser maior do que 7,93945. 2,5%

12) Suponha que a variável aleatória X de uma população tenha distribuição normal com

=20 e _2

=6. São retiradas duas amostras de 9 elementos cada uma para estimar . As

médias das amostras são, respectivamente, 18,8 e 21,1. Qual dos intervalos de confiança de 90% construídos a partir de cada média amostral contém ? ambos