• Nenhum resultado encontrado

Aula 11 - Questões Comentadas e Resolvidas

N/A
N/A
Protected

Academic year: 2021

Share "Aula 11 - Questões Comentadas e Resolvidas"

Copied!
53
0
0

Texto

(1)

Profs. Alexandre Lima e Moraes Junior Aula 11 - Questões Comentadas e Resolvidas

Estimação de Parâmetros. Estimador e estimativa, justeza, vício de estimação, eficiência, erro quadrático médio, método da máxima verossimilhança. Estimação por ponto e por intervalo. Intervalos de confiança.

Gostaríamos de tecer alguns comentários antes de iniciarmos a nossa aula de hoje. Primeiramente, sabemos que o assunto “Estimação” não é óbvio. Não obstante, este tópico está sendo cobrado nas últimas provas para Analista do BACEN, Analista da SUSEP, Fiscal do ICMS-RJ, etc. Logo, você precisa adquirir uma noção desta matéria, ainda que não consiga entender 100% do que ensinaremos para você nesta aula. Mas quem disse que o(a) candidato(a) aprovado(a) é aquele(a) que sabe 100% de tudo que cai na prova?!

Em segundo lugar, e que talvez seja o ponto mais importante se considerarmos a “média” de tudo que vem sendo cobrado pelas bancas de Raciocínio Lógico Quantitativo na parte de Estatística, esta aula visa criar uma ponte para as próximas duas aulas, as quais cobrirão tópicos que têm sido cobrados com frequência nas provas da área fiscal e correlatas, a saber: testes de hipóteses e inferência estatística e análise de variância do modelo de regressão linear.

Como a nossa política é ensinar o que poderá cair na prova, e não simplesmente colocar você para memorizar fórmulas que não fazem o menor sentido, optamos por incluir esta aula “ponte” entre a aula anterior e as próximas duas aulas visando a um melhor aproveitamento da parte de Estatística do curso.

Are you ready? Let’s go! Voltemos à nossa aula.

1. (ICMS-RJ/2009/FGV) Para examinar a opinião de uma população sobre uma proposta, foi montada uma pesquisa de opinião em que foram ouvidas 1680 pessoas, das quais 51,3% se declararam favoráveis à proposta.

Os analistas responsáveis determinaram que a margem de erro desse resultado, em um determinado nível de confiança, era de 2 pontos percentuais, para mais ou para menos.

Considerando que fosse desejada uma margem de erro de 1 ponto percentual, para mais ou para menos, no mesmo nível de confiança, assinale a alternativa que indique o número de pessoas que deveriam ser ouvidas.

A) 840 B) 2520 C) 3360

(2)

Profs. Alexandre Lima e Moraes Junior D) 5040

E) 6720

Resolução

PRELIMINARES: ESTIMAÇÃO DE PARÂMETROS INTRODUÇÃO

A partir desta aula, focaremos o estudo da Inferência Estatística, cujo objetivo é inferir propriedades da população a partir de uma amostra. A Inferência Estatística pode ser dividida em duas partes: estimação de parâmetros e testes de hipóteses. Nesta aula abordaremos a estimação, mas apenas no que diz respeito à estimação dos parâmetros de uma distribuição populacional.

A teoria da Probabilidade fornece vários modelos probabilísticos (distribuições de probabilidades), tais como binomial, Poisson, normal, etc. Tais modelos representam famílias de distribuições que dependem de um ou mais parâmetros. Por exemplo, uma distribuição normal é caracterizada pela média

µ e desvio-padrão σ.

Quando descrevemos uma população, fazemos isso por meio de algum modelo probabilístico, cujos parâmetros, portanto, devem ser estimados da melhor forma possível com base na amostra obtida.

Há duas técnicas de estimação de parâmetros: por ponto e por intervalo. Na estimação por ponto, a estimativa do parâmetro populacional corresponde a um único valor estimado. Na segunda técnica, constrói-se um intervalo, o qual deverá, com probabilidade conhecida, conter o parâmetro. Neste curso admitiremos, salvo menção em contrário, que a amostragem sempre será aleatória.

ESTIMADOR E ESTIMATIVA

Um estimador (ou estatística) é qualquer função das observações de uma amostra, que será usado no processo de estimação do parâmetro populacional desejado. A média amostral X , por exemplo, é um estimador da média µ de uma população. Um estimador é uma variável aleatória caracterizada por uma distribuição de probabilidades. Chamamos de estimativa um particular valor assumido por um estimador.

A estimação por ponto consiste em adotar a melhor estimativa possível como sendo o valor do parâmetro. A qualidade da estimação irá depender

(3)

Profs. Alexandre Lima e Moraes Junior

populacional, devemos ter a preocupação de escolher aquele que melhor satisfaça as propriedades estatísticas de um bom estimador.

PROPRIEDADES DOS ESTIMADORES Justeza ou Não Tendenciosidade

Um estimador Θˆ é justo (ou não viesado, ou não viciado, ou não tendencioso) se o seu valor esperado (ou média) for igual ao valor do parâmetro θ que se pretende estimar, isto é, se

(1) E(Θˆ )=θ.

A Eq. (1) afirma que os valores aleatórios de um estimador justo ocorrerão em torno do valor do parâmetro, o que é desejável (veja a figura abaixo).

Um estimador não viesado é aquele que, na média, acerta o valor correto do parâmetro populacional.

Se o estimador for tendencioso, então a diferença (2) E(Θ)ˆ −θ

é o viés (tendência ou vício) do estimador Θˆ , conforme ilustrado pela próxima figura. Deste modo, a adoção de um estimador que não seja justo implica um vício de estimação.

(4)

Profs. Alexandre Lima e Moraes Junior

Exemplo (Média Amostral). Seja uma população com média µ. A média X

da amostra aleatória (X1,X2,...,Xn) extraída dessa população é dada por

n X ... X X X = 1+ 2+ + n .

Então, o valor esperado de X é

=       + + + = n X ... X X E ) X ( E 1 2 n

( )

+

( )

+ +

( )

= ×µ =µ = n n X E n 1 ... X E n 1 X E n 1 n 2 1

Portanto, a média amostral é um estimador justo da média populacional, haja vista que a média do estimador é igual à média da população.

Exemplo. Seja uma população com média µ e variância σ2. Verifique que o estimador da variância populacional definido por

n ) X X ( ˆ n 1 i 2 i 2

= − = σ é viesado.

Nota: o entendimento da demonstração que se segue não é essencial para a prova. Mas é importante saber que o estimador da variância populacional considerado neste exemplo é viesado.

(5)

Profs. Alexandre Lima e Moraes Junior Calculemos a esperança de σˆ2:       − µ + µ − =       − µ + µ − =       − = σ

= = = n 1 i 2 i n 1 i 2 i n 1 i 2 i 2 E [(X ) ( X)] n 1 ) X X ( E n 1 ) X X ( E n 1 ) ˆ ( E       − µ + − µ µ − + µ − = σ

= n 1 i 2 i 2 i 2 ] ) X ( ) X )( X ( 2 ) X [( E n 1 ) ˆ ( E       − µ + − µ µ − + µ − = σ

= = = n 1 i n 1 i 2 i n 1 i 2 i 2 ) X ( ) X )( X ( 2 ) X ( E n 1 ) ˆ ( E       − µ + µ − − µ + µ − = σ

= = n 1 i 2 i n 1 i 2 i 2 ) X ( n ) X ( ) X ( 2 ) X ( E n 1 ) ˆ ( E como

= = n 1 i i nX X , temos que       − µ + µ − − µ + µ − = σ

= 2 n 1 i 2 i 2 ) X ( n ) X )( X ( n 2 ) X ( E n 1 ) ˆ ( E       − µ + − µ − µ − µ − = σ

= 2 n 1 i 2 i 2 ) X ( n ) X )( X ( n 2 ) X ( E n 1 ) ˆ ( E       − µ + − µ − µ − = σ

= 2 2 n 1 i 2 i 2 ) X ( n ) X ( n 2 ) X ( E n 1 ) ˆ ( E       − µ − µ − = σ

= 2 n 1 i 2 i 2 ) X ( n ) X ( E n 1 ) ˆ ( E

levando em conta que 2 2

) X ( ) X (µ− = −µ , obtemos       µ − − µ − = σ

= 2 n 1 i 2 i 2 ) X ( n ) X ( E n 1 ) ˆ ( E

aplicando a expectância, obtemos       µ − −       µ − = σ

= ] ) X [( nE ) X ( E n 1 ) ˆ ( E 2 n 1 i 2 i 2 .

Como a esperança da soma é igual à soma das esperanças, tem-se que

      µ − − µ − = σ

= ] ) X [( nE ) X ( E n 1 ) ˆ ( E 2 n 1 i 2 i 2 . Mas 2 i 2 i ) var(X ) X ( E −µ = =σ e E[(X−µ)2]=var(X)=σ2/n. Logo,

(6)

Profs. Alexandre Lima e Moraes Junior . n 1 n ) n ( n 1 n n n 1 ) ˆ ( E 2 2 2 2 2 n 1 i 2 2 = × σ σ =σ σ       σ σ = σ

=

Conclui-se que σˆ2 é um estimador viesado da variância populacional σ2. Esse defeito do estimador pode ser corrigido se multiplicarmos σˆ2 pelo fator

) 1 n /(

n − , o que nos leva à definição do estimador

1 n ) X X ( ˆ 1 n n S n 1 i 2 i 2 2 − − = σ − =

= ,

o qual, não por acaso, corresponde à variância amostral definida em uma anterior.

Não é difícil mostrar que S2 é um estimador justo da variância populacional: . n 1 n 1 n n ) ˆ ( E 1 n n ) S ( E 2 2 × − ×σ2 =σ2 − = σ − = Consistência

Um estimador é consistente, se, à medida que a amostra cresce, converge para o verdadeiro valor do parâmetro. Ou seja, quando o tamanho da amostra vai aumentando, o viés (se existir) vai diminuindo e a variância também. Um estimador consistente é aquele que converge para o valor do parâmetro quando o tamanho da amostra tende a infinito.

A média amostral é um estimador consistente da média, pois é um estimador justo e para o qual vale

0 n lim ) X var( lim 2 n n   =     = →∞ →∞ σ σσ

em que n denota o tamanho da amostra aleatória.

ESTIMAÇÃO POR PONTO DE UMA PROPORÇÃO POPULACIONAL

Se desejarmos estimar a proporção p dos elementos da população com uma dada característica, usaremos como estimador a proporção ou freqüência relativa pˆ com que essa característica foi observada na amostra. Tal procedimento, além de intuitivo, corresponde a adotar um estimador justo e consistente, uma vez que

(7)

Profs. Alexandre Lima e Moraes Junior p n np E(f) n 1 n f E ) pˆ E( = = =      = n p) p(1 ) pˆ var( = − ⇒ 0. n p) p(1 lim ) pˆ var( lim n n = − = →∞ →∞

ESTIMAÇÃO POR INTERVALO

Intervalo de Confiança para uma Proporção Populacional

Uma freqüência relativa amostral pˆ apresenta uma distribuição binomial, cuja média é o próprio parâmetro populacional p e cuja variância é dada por

p)/n

p(1 − . Sendo np ≥5 e n(1−p)≥5, é possível aproximar a binomial pela normal. Como p é desconhecido, adotaremos como condições de aproximação

5 pˆ

n ≥ e n(1−pˆ)≥5.

Sendo a amostra suficientemente grande, o intervalo de confiança para p será da forma pˆ ± , onde ε ε é a semiamplitude do intervalo, dada por

(3) n p) p(1 z ) pˆ var( z ε= α/2× = α/2

em que a grandeza 1 −α representa o nível de confiança da estimação (0<1−α<1) e zα/2 é a variável normal padronizada.

Observações relativas à notação:

• A semiamplitude do intervalo de confiança também poderá ser representada por e0. Desta forma, utilizaremos os símbolos e0 ou ε de forma intercambiável ao longo desta aula.

• A freqüência relativa amostral pˆ também poderá ser representada por

'

p . Assim, os símbolos pˆ ou p' poderão ser usados de forma intercambiável no restante desta aula.

A expressão (3) tem um problema: não conhecemos o valor de p. Para amostras suficientemente grandes, pode-se aproximar (3) por

(4) n ) pˆ (1 pˆ z ε= α/2 − .

Então o intervalo de confiança para p, ao nível de confiança 1−α, será dado por

(8)

Profs. Alexandre Lima e Moraes Junior (5) n ) pˆ (1 pˆ z pˆ± α/2 − .

Exemplo. Retirou-se uma amostra de 1.000 peças de uma linha de produção e verificou-se que 35 eram defeituosas. Estime o intervalo de confiança ao nível de 95% da proporção de peças defeituosas fornecidas pela linha de produção. Solução: n = 1.000 0,035 35/1.000 f/n pˆ= = = 1,96 z

zα/2= 2,5%= (vide tabela da normal reduzida) Logo, 0,0114 1.000 0,035) 0,035(1 1,96 n ) pˆ (1 pˆ z ε= α/2 − = × − = 0,0114 0,035 p 0,0114 0,035− ≤ ≤ + ⇒ 0,0236≤p≤0,0464 com 95% de confiança.

Voltemos à resolução da questão. Dados:

• pˆ =0,513: proporção de pessoas favoráveis à proposta;

• n =1680;

• ε=2%=0,02: margem de erro; e

• ε'=1%=0,01: margem de erro desejada

Qual é o valor de n’ (novo número de pessoas que deveriam ser ouvidas) correspondente a ε' =0,01? Sabemos que n ) pˆ (1 pˆ z ε= α/2 − .

Conhecendo zα/2 (não foi fornecido) é possível calcular n’ por meio de

) pˆ 1 ( pˆ ' z ' n 2 2 / −      ε = α .

(9)

Profs. Alexandre Lima e Moraes Junior n ) pˆ (1 pˆ z ε= α/2 − ⇒ 1680 ) 513 , 0 1 ( 513 , 0 z 02 , 0 = α/2 − ⇒ zα/2 =1,6401. Cálculo de n’: 22 , 6720 ) 513 , 0 1 ( 513 , 0 01 , 0 6401 , 1 ' 2 ≈ −       = n ⇒ alternativa (E)

Nota: como a estimativa p’ = 0,513 indica que p está próxima de 50%, temos a alternativa de usar a fórmula aproximada

725 . 6 01 , 0 2 6401 , 1 ' 2 ' 2 2 0 2 / ≈      × =       = e z

n α ⇒ valor mais próximo é a alternativa (E).

GABARITO: E

2. (ICMS-RJ/2008/FGV) Considere uma Amostra Aleatória Simples de n unidades extraídas de uma população na qual a característica, X, estudada tem distribuição Normal com média µ e variância σ2, ambas desconhecidas, mas finitas. Considere, ainda, as estatísticas média da amostra,

= = n 1 i i X n 1 X , e variância da amostra

= − = n 1 i 2 i 2 ) X X ( n 1

S . Então, é correto afirmar que:

A) X e S2 são, ambos, não tendenciosos para a estimação da média e da variância da população, respectivamente.

B) X é não tendencioso, mas 2

S é tendencioso para a estimação da média e da variância da população, respectivamente.

C) X é tendencioso, mas 2

S é não tendencioso para a estimação da média e da variância da população, respectivamente

D) X e 2

S são, ambos, tendenciosos para a estimação da média e da variância da população, respectivamente.

E) X e 2

S são, ambos, não tendenciosos para a estimação da média e da variância da população, mas apenas X é consistente.

Resolução

Sabe-se que

• X é um estimador justo (não tendencioso) e consistente da média populacional µ;

(10)

Profs. Alexandre Lima e Moraes Junior

• se definirmos o estimador da variância populacional σ2 por meio da fórmula

= − n 1 i 2 i X) (X n 1

, então esse estimador é tendencioso, porém consistente e

• se definirmos o estimador da variância populacional σ2 por meio da fórmula

= − − n 1 i 2 i X) (X 1 n 1

, então esse estimador é não tendencioso e consistente.

Atenção: o estimador S2 do enunciado desta questão corresponde ao estimador viesado

= − = σ n 1 i 2 i 2 ) X (X n 1

ˆ da exposição teórica da questão anterior. Neste curso, temos usado o símbolo 2

S para denotar o estimador justo da variância populacional. Não se confunda!

Análise das alternativas:

(A) Somente X é não tendencioso ⇒ INCORRETA. (B) X é não tendencioso e 2 S é tendencioso ⇒ CORRETA. (C) X é não tendencioso e 2 S é tendencioso ⇒ INCORRETA. (D) Somente 2 S é tendencioso ⇒ INCORRETA. (E) Somente X é não tendencioso. Além disso, 2

S também é consistente ⇒

INCORRETA. GABARITO: B

3. (ICMS-RJ/2007/FGV) Uma pesquisa recente foi realizada para avaliar o percentual da população favorável à eleição de um determinado ponto turístico para constar no selo comemorativo de aniversário da cidade. Para isso, selecionou-se uma amostra aleatória simples extraída de uma população infinita. O resultado apurou 50% de intenção de votos para esse ponto turístico.

Considerando que a margem de erro foi de 2 pontos percentuais, para mais ou para menos, e que o nível de confiança utilizado foi de 95%, foram ouvidas, aproximadamente:

A) 50 pessoas B) 2.400 pessoas

(11)

Profs. Alexandre Lima e Moraes Junior E) 4.800 pessoas Resolução Vimos que n ) ' p 1 ( ' p z /2 − =

ε α . Elevando os dois membros da igualdade ao quadrado, obtemos n ) ' p 1 ( ' p z2 2 / 2 = − ε αn z2/2p'(21 p') ε − = α .

Substituindo p’ = 50% = 1/2 na expressão de n, obtemos

400 . 2 401 . 2 02 , 0 2 96 , 1 2 z 4 z 1 4 1 z 4 1 z 2 1 2 1 z ) 2 1 1 ( 2 1 z n 2 2 2 / 2 2 2 / 2 2 2 / 2 2 2 / 2 2 2 / 2 2 2 / ≈ =       × =       ε = ε = ε × = ε = ε × = ε − = α α α α α α GABARITO: B

4. (Estatística/IBGE/2010/CESGRANRIO) Para que o erro padrão da média amostral X seja reduzido à metade, deve-se

A) multiplicar o tamanho da amostra por 2. B) multiplicar o tamanho da amostra por 4. C) multiplicar o tamanho da amostra por 16. D) dividir o tamanho da amostra por 2. E) dividir o tamanho da amostra por 4.

Resolução

O erro padrão (ou desvio padrão) da média X de uma amostra de n observações proveniente de uma população de média µ e variância σ2 é dado por n ) X ( = σ σ .

Seja o novo erro padrão de X denotado por σ∗(X). Então

∗ ∗ = σ = σ = σ = σ σ n n 4 n 2 2 ) X ( ) X

( ⇒ n =∗ 4n (deve-se multiplicar o tamanho da amostra por 4).

(12)

Profs. Alexandre Lima e Moraes Junior

5. (Analista Técnico/SUSEP/2001/ESAF) Os itens 2,30; 4,11; 5,20; 6,30; 7,20 formam uma ordenação de uma amostra aleatória de tamanho 5 da distribuição uniforme no intervalo [0,

θ

] sendo

θ

>0. Assinale a opção que corresponde à estimativa de máxima verossimilhança de

θ

.

A) 5,20 B) 5,02 C) 7,20 D) 5,00 E) 8,00 Resolução

PRELIMINARES: ESTIMAÇÃO POR MÁXIMA VEROSSIMILHANÇA Introdução

Alguns critérios têm sido propostos com o objetivo de resolver o problema da escolha do estimador adequado. Dentre eles, podemos citar os métodos da máxima verossimilhança, dos momentos e de Bayes. Destacamos a importância, para a prova (e também na prática), do método da máxima verossimilhança, que será apresentado a seguir.

Estimação por Máxima Verossimilhança

Os dicionários definem o termo verossímil como aquilo que parece ser verdadeiro ou o que tem probabilidade de ser verdadeiro ou aquilo que se assemelha com a realidade. Neste sentido, qual seria a idéia fundamental da estimação por verossimilhança de um parâmetro populacional? A resposta é a seguinte: a estimação por verossimilhança fornece a estimativa que corresponde ao valor mais provável do parâmetro.

Vejamos a seguir como a Estatística define o conceito de estimação por máxima verossimilhança.

O método da máxima verossimilhança consiste em adotar para o parâmetro o valor que maximize a função de verossimilhança associada ao resultado obtido na amostra. Mas o que é a função de verossimilhança? Definição (Método da Máxima Verossimilhança). Seja uma população com função densidade de probabilidade caracterizada pelo parâmetro populacional desconhecido θ. Então a distribuição de probabilidades dessa população pode ser denotada por f(x;θ). Sejam n observações independentes

(13)

Profs. Alexandre Lima e Moraes Junior

observações, também conhecida como função de verossimilhança da amostra, é dada por

) ; x ( f ... ) ; x ( f ) ; x ( f ) ( L θ = 1 θ × 2 θ × × n θ .

Note que L θ( ) é função somente do parâmetro desconhecido θ. A Estimativa de Máxima Verossimilhança (EMV) de θ é o valor θˆ que maximiza a função

) (

L θ . A raiz da equação dL(θ)/dθ=0 (derivada da função L θ( ) em relação a θ) é o ponto de máximo de L θ( ). Em muitos casos, é mais conveniente tomar a primeira derivada da função de log-verossimilhança lnL(θ) (logaritmo natural de L θ( )), a qual possui um máximo no mesmo ponto θˆ que maximiza L θ( ). Deste modo, 0 d ) ; x ( df ) ; x ( f 1 ... d ) ; x ( df ) ; x ( f 1 d ) ; x ( df ) ; x ( f 1 n n 2 2 1 1 = θ θ θ + + θ θ θ + θ θ θ

A solução para a equação acima (θ em termos dos xk) é a estimativa de máxima verossimilhança de θ.

Nota: no caso de uma variável aleatória discreta, a função de verossimilhança L θ( ) é a probabilidade ) x X ,..., x X , x X ( Pθ 1= 1 2 = 2 n = n .

Ou seja, L θ( ) é apenas a probabilidade de obter os valores amostrais n

2 1,x ,...,x

x . Logo, no caso discreto, a estimativa de máxima verossimilhança é aquela que maximiza a probabilidade de ocorrência dos valores da amostra.

Exemplo. Um jogador de cassino trocou o seu dinheiro por dez fichas, das quais θ são pretas e 10 – θ são brancas. Uma amostra de quatro fichas com reposição é retirada do seu bolso e verifica-se que ela contém três fichas brancas e uma ficha preta. Estime o parâmetro θ pelo método da máxima verossimilhança.

Solução:

Devemos determinar a função de verossimilhança correspondente ao resultado amostral obtido, a qual será dada pela probabilidade de, em uma amostra de n = 4, obter-se exatamente uma ficha preta, dada em função do parâmetro desconhecido θ. Tal probabilidade pode ser obtida pela aplicação da distribuição binomial, em que a probabilidade de sucesso será p=θ/10, n = 4 e x = 1. Designando por L θ( ) a função de verossimilhança, temos

(14)

Profs. Alexandre Lima e Moraes Junior 500 . 2 ) 10 ( 10 1 10 1 4 ) p 1 ( p x n ) ( L 3 3 1 x n x = θ −θ      θ     θ        =  −        = θ −

A Tabela a seguir mostra que o valor de máxima verossimilhança é θ=3. Logo, a estimativa de máxima verossimilhança é θˆ =3.

θθθ L(θθθ) θθθ L(θθθ) 0 0 6 384/2.500 1 729/2.500 7 189/2.500 2 1.024/2.500 8 64/2.500 3 1.029/2.500 9 9/2.500 4 864/2.500 10 0 5 625/2.500

Exemplo. Suponha uma população com distribuição uniforme entre 0 e θ. Retirou-se uma amostra aleatória de n valores dessa população com o objetivo de estimar-se θ. Admita que xmax seja o maior valor obtido nessa amostra. Calcule a EMV de θ.

Solução:

Evidentemente que θ≥xmax. Logo, a estimativa “mais verossímil” (ou a EMV) é adotar θˆ =xmax. Contudo, detalhemos o raciocínio como a seguir.

Sabe-se que θ≥xmax. A função densidade de probabilidade da distribuição uniforme é f(x)= /1 θ para 0≤ x≤θ e f(x)=0 caso contrário.

A função de verossimilhança de uma amostra aleatória com n observações é

n n 1 i 1 1 ) ( L θ = θ = θ

= ,

Cujo domínio é θ≥xmax, ou seja, o menor valor possível para o parâmetro θ é max

x =

θ . O gráfico abaixo mostra que o maior valor (máximo absoluto) de L θ( )

(15)

Profs. Alexandre Lima e Moraes Junior

Este exemplo indica que nem sempre é possível usar diretamente métodos de cálculo para determinar o máximo de L(θ).

Voltemos à resolução

O enunciado fornece uma amostra aleatória com cinco elementos extraídos de uma distribuição uniforme:

} 20 , 7 x ; 30 , 6 x ; 20 , 5 x ; 11 , 4 x ; 30 , 2 x { 1 = 2 = 3 = 4 = 5 = .

O valor máximo da amostra é xmax =x5 =7,20. A Estimativa de Máxima Verossimilhança (EMV) de

θ é

θˆ =xmax =7,20 (alternativa C).

GABARITO: C

6. (Analista Técnico/SUSEP/2001/ESAF) Tem-se duas amostras independentes ambas de tamanho 21 de duas populações normais com a mesma variância σ2 > 0. Deseja-se construir um intervalo de confiança para σ2

, no nível de 95%, com base numa estimativa combinada das variâncias amostrais s12 =0,4 e s22 =0,6. Se 0< a < b são duas constantes tais que P{X<a} = 0,025 e P{X>b} = 0,025, onde X tem distribuição qui-quadrado, assinale a resposta que corresponde ao intervalo procurado e ao número de graus de liberdade da distribuição de X.

A) [17/b; 17/a] e 20 graus de liberdade B) [5/3b; 5/2a] e 40 graus de liberdade C) [17/b; 17/a] e 41 graus de liberdade D) [20/b; 20/a] e 40 graus de liberdade E) [5/3b; 5/2a] e 20 graus de liberdade

(16)

Profs. Alexandre Lima e Moraes Junior PRELIMINARES

Estimação com Base em Diversas Amostras

Sejam k amostras e um parâmetro populacional a ser estimado. Cada amostra fornecerá uma estimativa para o parâmetro que está sendo estimado e essas estimativas irão diferir entre si, pois correspondem a observações de variáveis aleatórias. Entretanto, pode-se, em geral, combinar esses resultados, obtendo-se uma estimativa única para o parâmetro em questão.

No caso de estimação da média µµµ ou de uma proporção p, pode-se combinar as estimativas se todas as amostras forem provenientes de uma mesma população ou de populações infinitas com mesma média µµµ e mesma proporção p. Ou seja, pode-se calcular a média ponderada das diversas médias e freqüências relativas amostrais tomando como pesos de ponderação os tamanhos das respectivas amostras. Isso equivale a fundir as diversas amostras em uma única amostra maior, usando a média X e a freqüência pˆ fornecidas por essa amostra.

No caso da variância populacional σσσ2, deve-se realizar a ponderação usando como pesos os graus de liberdade (*) de cada amostra. Seja n1 o tamanho da amostra 1, n2 o tamanho da amostra 2, ..., nk o tamanho da amostra k (as amostras i, i = 1,2,...,k, possuem desvio padrão Si). Então a estimativa combinada de σσσ2 será dada pela estatística

k n ... n n S ) 1 n ( ... S ) 1 n ( S ) 1 n ( S k 2 1 2 k k 2 2 2 2 1 1 2 p + + + − + + − + − = ,

que possui n1+n2+...+nk −k graus de liberdade.

(*) Considere a amostra k. O número de graus de liberdade da estatística 2 k

S é )

1 n

( k − porque um grau de liberdade já foi “gasto” para estimar a média amostral Xk. Lembre que o cálculo de Xk é dado por

k n 2 1 k n x ... x x X = + + + k

e isto implica dizer que a estatística Xk possui nk graus de liberdade.

Note-se que a estimativa não será idêntica à que se obteria pela reunião dos dados em uma amostra única, embora ambos os processos sejam válidos nas condições acima mencionadas.

(17)

Profs. Alexandre Lima e Moraes Junior A estimativa 2

p

S tem a vantagem de poder ser usada se as diversas amostras forem provenientes de populações com médias diferentes, porém de mesma variância σ2

.

Se as amostras forem razoavelmente grandes, poderemos adotar Sp como uma boa estimativa para o desvio padrão σ.

Intervalo de Confiança para a Variância Considere, na distribuição 2

1 n−

χ , os dois particulares valores 2 2 / 1 , 1 n− −α χ (qui-quadrado inferior) e 2 2 / , 1 n− α

χ (qui-quadrado superior), conforme ilustrado pela figura a seguir (α/2 representa a área sob a distribuição à direita de 2

2 / , 1 n− α χ ).

Sabemos que os valores 2 2 / 1 , 1 n− −α χ e 2 2 / , 1 n− α

χ são tais que . 1 ) (

P χ2n1,1α/2 ≤χ2n1≤χ2n1,α/2 = −α Vimos que o estimador da variância tem distribuição

2 1 n 2 2 1 n S χ − σ =

⇒ qui-quadrado com n −1 graus de liberdade vezes o fator

1 n

2

− σ

(18)

Profs. Alexandre Lima e Moraes Junior 2 2 / , 1 n 2 2 2 2 / 1 , 1 n S ) 1 n ( α − α − − σ ≤χ − ≤ χ .

Vamos dividir todos os membros da expressão acima por 2

S ) 1 n

( − , e, após, tomar os inversos. Invertendo as desigualdades, obtemos

2 2 / 1 , 1 n 2 2 2 2 / , 1 n 2 S ) 1 n ( S ) 1 n ( α − − α − χ − ≤ σ ≤ χ −

que é o intervalo de confiança para σσσ2, ao nível de α

1 .

A fórmula acima pode ser reescrita na forma

2 2 / 1 , 1 n n 1 i 2 i 2 2 2 / , 1 n n 1 i 2 i X) (X X) X ( α − − = α − = χ − ≤ σ ≤ χ −

Exemplo. Uma amostra de onze elementos, extraída de uma população normal, forneceu variância S2 = 7,08. Determine o intervalo de 90% de confiança para a variância da população.

Solução:

Entrando na tabela da distribuição χ2 com 10 graus de liberdade, obtemos: , 94 , 3 2 % 95 , 10 2 2 / 1 , 1 n =χ = χ α . 3 , 18 2 % 5 , 10 2 2 / , 1 n =χ = χ α Logo, 2 2 / 1 , 1 n 2 2 2 2 / , 1 n 2 S ) 1 n ( S ) 1 n ( α − − α − χ − ≤ σ ≤ χ − 94 , 3 08 , 7 10 3 , 18 08 , 7 10× σ2 × 9695 , 17 8689 , 3 ≤σ2 ≤

Logo, 3,8689σ2 17,9695 com 90% de confiança.

Voltemos à resolução

Esta questão pede que o(a) candidato(a) determine: i) o intervalo de confiança ao nível de 95% da variável aleatória X que possui distribuição qui-quadrado e ii) o número de graus de liberdade de X.

Do enunciado, depreende-se que X é resultante da combinação das estatísticas 2

(19)

Profs. Alexandre Lima e Moraes Junior

A estimativa combinada das variâncias amostrais s12 =0,4 e s22 =0,6 é dada por

5 , 0 40 6 , 0 20 4 , 0 20 2 n n s ) 1 n ( s ) 1 n ( s x 2 1 2 2 2 2 1 1 2 p = × + × = − + − + − = =

a qual possui (n1 + n2 - 2) = 21 + 21 – 2 = 40 graus de liberdade ⇒ este fato, por si só, já elimina as alternativas A, C e E.

O intervalo de confiança de σ 2

é dado pela fórmula

2 2 / 1 , 1 n 2 2 2 2 / , 1 n 2 S ) 1 n ( S ) 1 n ( α − − α − χ − ≤ σ ≤ χ − .

A fórmula acima pode ser generalizada para o problema em questão como

2 2 / 1 , 1 n 2 2 2 2 / , 1 n 2 p (n k)Sp S ) k n ( α − − α − χ − ≤ σ ≤ χ − em que n=n1+n2.

O enunciado forneceu os qui-quadrados superior e inferior: χn21,α/2sup2 =b e a 2 inf 2 2 / 1 , 1 n =χ = χ α . Portanto, 2 inf 2 2 2 sup 2 p (n k)Sp S ) k n ( χ − ≤ σ ≤ χ − ⇒ a 5 , 0 ) 2 42 ( b 5 , 0 ) 2 42 ( − × σ2 − × a 5 , 0 40 b 5 , 0 40× σ2 × ⇒ a 20 b 20σ2 . GABARITO: D

7. (Analista/Área 3/BACEN/2006/FCC) Os preços de um determinado produto vendido no mercado têm uma distribuição normal com desvio padrão populacional de R$ 20,00. Por meio de pesquisa realizada com uma amostra aleatória de tamanho 100, com um determinado nível de confiança, apurou-se, para a média destes preços, um intervalo de confiança sendo [R$ 61,08 ; R$ 68,92]. A mesma média amostral foi obtida quadruplicando o tamanho da amostra anterior e utilizando também o mesmo nível de confiança. Nos dois casos considerou-se infinito o tamanho da população. O novo intervalo de confiança encontrado no segundo caso foi

A) [R$ 63,04 ; R$ 66,96] B) [R$ 62,06 ; R$ 67,94]

(20)

Profs. Alexandre Lima e Moraes Junior D) [R$ 61,33 ; R$ 68,67]

E) [R$ 61,20 ; R$ 68,80]

Resolução

Dados: σ = 20, n = 100, 61,08 < µ < 68,92. Podemos montar o seguinte sistema de equações:

   = + = − 92 , 68 e X 08 , 61 e X 0 0

em que e0 denota a semiamplitude do intervalo de confiança. Somando as duas equações obtemos:

130 X

2 = ⇒ X =65

Subtraindo a primeira da segunda equação temos:

84 , 7 08 , 61 92 , 68 e 2 0 = − = ⇒ e0 =3,92 Sabemos que n z e0 = α/2 σ ⇒ 100 20 z 92 , 3 = α/2 ⇒ zα/2 =1,96.

Quadruplicando o tamanho da amostra teremos n’=400. Logo,

' n z ' e0 = α/2 σ ⇒ 400 20 96 , 1 ' e0 = ⇒ e0'=1,96

E o novo intervalo de confiança (IC) será

IC = [65,00 – 1,96 ; 65,00 + 1,96] = [63,04 ; 66,96]. GABARITO: A

8. (Estat./IBGE/2010/CESGRANRIO) Sejam X ,X ,...,X iid~N( ; 2)

n 2

1 µ σ e

considerados dois estimadores para σ2

= − − = n 2 i 1 (X X) 1 n 1 T e (X X) . n 1 T n 2 i 2

= − =

(21)

Profs. Alexandre Lima e Moraes Junior I – T1 é não tendencioso.

II – O erro médio quadrático de T1 é 4

1 n2 σ− , enquanto que o de T2 é 4 2 n ) 1 n ( 2 σ − . III – A tendência de       σ = n T 2 2 .

É (São) correta(s) a(s) afirmativa(s) A) I apenas. B) I e II, apenas. C) I e III, apenas. D) II e III, apenas. E) I, II e III. Resolução

Primeiramente, é necessário investigar as propriedades dos estimadores T1 e

T2. Mas, antes disso, vamos relembrar a distribuição χ2.

Seja uma amostra X ,X ,...,X iid~N( ; 2)

n 2

1 µ σ (ou seja, cada elemento da amostra é normalmente distribuído com média µ e variância σ2) Aprendemos que a estatística

= = =       σ µ − = χ n 1 i 2 i n 1 i 2 i 2 n Z X

em que Zi denota a variável aleatória normal reduzida, tem distribuição χ2 com n graus de liberdade. Vimos também que,

n ) ( E χ2 n = n 2 ) var(χn2 = . A estatística , ) X X ( X X 2 n 1 i 2 i n 1 i 2 i σ − =       σ −

= =

(22)

Profs. Alexandre Lima e Moraes Junior obtida por substituição de µ por X na expressão de 2

n

χ acima tem distribuição do tipo χ2 com n-1 graus de liberdade (um grau de liberdade foi “gasto” no cálculo de X). Logo, . ) X X ( 2 n 1 i 2 i 2 1 n σ − = χ

= −

Cálculo da média e da variância de T1:

2 1 n 2 2 2 n 1 i 2 i n 1 i 2 i 1 1 n 1 n ) X X ( 1 n ) X X ( T = = χ − σ = − σ σ − = − − =

ou seja, o estimador T1, a menos da constante σ2/(n−1), tem distribuição χ2

com n-1 graus de liberdade. Então,

2 2 2 1 n 2 1 (n 1) 1 n 1 n E ) T ( E × − =σ − σ =       χ − σ

= ⇒ T1 é um estimador não tendencioso de

σ σσ2 (viés é nulo). 1 n 2 ) 1 n ( 2 ) 1 n ( ) var( ) 1 n ( 1 n var ) T var( 4 2 4 2 1 n 2 4 2 1 n 2 1 σ = − × − σ = χ − σ =       χ − σ = como 0 1 n 2 lim ) T var( lim 4 n 1 n − = σ = ∞ → ∞ → , T1 é um estimador consistente de σσσ 2 .

O Erro Quadrático Médio de T1 é dado por + =var(T) ) T ( EQM 1 1 [viés(T ]1) 2 . 1 n 2 ) T var( 0 ) T var( ) T ( EQM 4 1 1 1 σ = = + =

Cálculo da média e da variância de T2:

2 1 n 2 2 2 n 1 i 2 i n 1 i 2 i 2 n n ) X X ( n ) X X ( T = = σ = σ χ σ − = − =

ou seja, o estimador T2, a menos da constante σ2/n, tem distribuição χ2 com

n-1 graus de liberdade. Então,

2 2 2 2 2 2 ) 1 n ( E ) T ( E = σ χ  = σ × − =σ −σ ≠σ ⇒ T2 é um estimador tendencioso

(23)

Profs. Alexandre Lima e Moraes Junior viés(T2) = n n ) T ( E 2 2 2 2 2 2 σ − = σ − σ − σ = σ − . Note que 0 n lim 2 n  =     σ →∞ , ou seja, o viés de T2 tende a desaparecer com o aumento do tamanho da amostra.

2 4 2 4 2 1 n 2 4 2 1 n 2 2 n ) 1 n ( 2 ) 1 n ( 2 n ) var( n n var ) T var( = σ χ = σ × − = σ −      χ σ = − − como 0 n 1 n 1 lim 2 n ) 1 n ( 2 lim ) T var( lim 2 n 4 2 4 n 2 n =     − × σ = − σ = ∞ → ∞ → ∞ → (e 2 2) ( lim =σ ∞ → E T n ), T2 é um estimador consistente de σσσ2 .

O Erro Quadrático Médio de T2 é dado por + =var(T ) ) T ( EQM 2 2 [viés(T ]2) 2 . ) 1 2 ( ) 1 ( 2 ) 1 ( 2 ) ( 2 2 4 4 2 4 2 2 2 4 2 σ σ σ σ σ n n n n n n n n T EQM  = − + = −      − + − =

Análise das afirmativas: (I) VERDADEIRA, pois 2

1)

T (

E =σ . (II) VERDADEIRA, pois

1 n 2 ) T ( EQM 4 1 σ = e 2 2 4 n ) 1 n 2 ( ) T ( EQM = − σ .

(II) VERDADEIRA, pois viés(T2) =

n

2

σ

− .

GABARITO: E

9. (Estatística/IBGE/2010/CESGRANRIO) Considere uma amostragem aleatória simples, sem reposição, de uma população de tamanho muito grande. Qual o tamanho aproximado de amostra que permite estimar a média de uma variável y, cujo desvio padrão populacional é igual a 5, com margem de erro 0,1, a um nível de confiança 95%?

A) 100 B) 400 C) 1.000 D) 4.000 E) 10.000 Resolução Dados: 1−α=95%, σ = 5 e e =0,1.

(24)

Profs. Alexandre Lima e Moraes Junior

A semiamplitude do intervalo de confiança para a média populacional quando o desvio padrão é conhecido é (*)

n z e0 = α/2 σ Então 2 0 2 / e z n       σ = α

(*) Você reparou que, dado o nível de confiança 1−α, e0 corresponde à multiplicação entre a variável normal reduzida zα/2 e o desvio padrão da média amostral σ/ n? Ou seja,

=

0

e (variável normal reduzida zα/2) x (desvio padrão da média amostral) Note que z2,5% =1,96 é um valor “manjado”. Portanto,

604 . 9 1 , 0 5 96 , 1 n 2 =       ×

= ⇒ alternativa com valor mais próximo é a letra E (n ≈ 10.000)

GABARITO: E

10. (Estatística/IBGE/2010/CESGRANRIO) Para avaliar a taxa de desemprego em uma determinada localidade, selecionou-se uma amostra aleatória de 900 indivíduos em idade produtiva. O resultado dessa amostra revelou que o número de desempregados era de 36%. O intervalo de 95% de confiança para a proporção de desempregados, nessa localidade, é

A) 36% ± 0,1% B) 36% ± 2,6% C) 36% ± 3,1% D) 36% ± 3,7% E) 36% ± 4,1% Resolução

(25)

Profs. Alexandre Lima e Moraes Junior IC = 36% 3,14% 900 ) 36 , 0 1 ( 36 , 0 96 , 1 % 36 n ) ' p 1 ( ' p z ' p± α/2 − = ± − ≈ ± ⇒ alternativa com valor mais próximo é C.

GABARITO: C

11. (Analista/Área 2/BACEN/2010/CESGRANRIO) Em um estudo sobre a economia informal de uma cidade, deseja-se determinar uma amostra para estimar o rendimento médio dessa população, com um grau de confiança de 95% de que a média da amostra aleatória extraída não difira de mais de R$ 50,00 da média do rendimento dessa população, cujo desvio padrão é R$ 400,00. Sabendo-se que z ~ N[0,1] e que

1,96 =

0 f(z)dz 0,4750, onde f(z) é a função de densidade de probabilidade de z, pode-se concluir que o número de pessoas da amostra será

A) 321 B) 308 C) 296 D) 271 E) 246 Resolução Dados: • 1−α=95% (nível de confiança) •

1,96 = 0 f(z)dz 0,4750 (z2,5% =1,96) • σ = 400 • e0 = 50 (margem de erro).

Neste caso o tamanho n da amostra é dado pela fórmula

n z e0 = 2,5% σ ⇒ n 400 96 , 1 50 = ⇒ 1,96 8 50 400 96 , 1 n = = × ⇒ n=245,86≈246. GABARITO: E

(Analista Ministerial/Estatística/MPE-PE/2006/FCC) Instruções (adaptadas): Para responder às questões de números 12 e 13, considere as tabelas a seguir.

(26)

Profs. Alexandre Lima e Moraes Junior

Elas fornecem alguns valores da função de distribuição F(x). A tabela 1 refere-se à variável normal padrão, as tabelas 2 e 3 referem-refere-se à variável t de Student com 15 e 16 graus de liberdade, respectivamente:

Tabela 1 Tabela 2 Tabela 3

x F(x) x F(x) x F(x)

1,60 0,945 1,753 0,95 1,746 0,95

1,64 0,950 2,248 0,98 2,235 0,98

2,00 0,977 2,583 0,99 2,567 0,99

12. Um engenheiro encarregado do controle de qualidade deseja estimar a proporção p de lâmpadas defeituosas de um lote, com base numa amostra de tamanho 400. Sabe-se, com base em experiâncias anteriores, que p deve estar próximo de 0,5. Usando o teorema central do limite para estimar a amplitude do intervalo de confiança de 90% para p, podemos afirmar que tal amplitude é, aproximadamente, igual a

A) 0,041 B) 0,045 C) 0,058 D) 0,070 E) 0,082 Resolução Dados: (1 - α) = 0,90, n = 400 e p’ ≈ 50%.

A tabela 1 indica que z = 1,64 para α/2 = 5%. Como a estimativa p’ ≈ 50%, podemos usar a fórmula

2 0 2 / e 2 z n       = α 400 64 , 1 n ) z ( ) e 2 ( 2 2 2 / 2 0 = = α 0,082 400 64 , 1 ) e 2 ( 2 0 = = ⇒ alternativa (E).

Atenção: a questão pede que o candidato calcule a AMPLITUDE (= dobro da semi-amplitude e0) do intervalo de confiança.

GABARITO: E

13. Supondo-se que a porcentagem da receita investida em educação, dos 600 municípios de uma região, tem distribuição normal com média µ, deseja-se estimar essa média. Para tanto se sorteou dentre esses 600, aleatoriamente e com reposição, 16 municípios e se observou os porcentuais investidos por eles em educação. Os resultados indicaram uma média amostral de 8% e desvio padrão amostral igual a 2%. Um intervalo de confiança para µ, com coeficiente

(27)

Profs. Alexandre Lima e Moraes Junior A) (8 ± 1,124)% B) (8 ± 1,117)% C) (8 ± 0,877)% D) (8 ± 0,870)% E) (8 ± 0,755)% Resolução

A questão aborda a construção do intervalo de confiança da média populacional µµµ quando o desvio padrão populacional σσσ é desconhecido. Para tal, deve-se utilizar a fórmula

n S t

n1,α/2

em que tn1,α/2 representa a distribuição t de Student com n −1 graus de liberdade cuja área à direita de tn1,α/2 tem o valor α/2.

Nota: a fórmula para cálculo da semiamplitude do intervalo de confiança da média populacional µ quando o desvio padrão populacional σ é desconhecido

n S t

e0 = n1,α/2

é muito parecida com a fórmula da semiamplitude do intervalo de confiança para a média populacional quando o desvio padrão é conhecido

n z e0 = α/2 σ

Para obter a primeira fórmula a partir da segunda, basta substituir zα/2 por 2

/ , 1 n

t α e σ/ n (erro padrão da média amostral) por S/ n (estimador do erro padrão da média amostral).

Dados: X =8%, S =2%, n =16.

A tabela 2 fornece o valor de tn1,α/2 =t15,2% =2,248 (entrada correspondente ao valor F(x) = 98%, que implica α/2 = 1 – 98% = 2%). Logo,

% 124 , 1 % 8 16 % 2 248 , 2 % 8 n S t X± n1,α/2 = ± = ± GABARITO: A

(28)

Profs. Alexandre Lima e Moraes Junior

(ANPEC/2009/Adaptada) Verifique se as afirmativas 14 a 17 são verdadeiras:

14. Em uma pesquisa de opinião a proporção de pessoas favoráveis a uma determinada medida governamental é dada por pˆ=

Xi/n. O menor valor de n para o qual a desigualdade de Chebyshev resultará em uma garantia de que

01 , 0 ) 01 , 0 | p pˆ (| P − ≥ ≤ é 200.000. Resolução

A proporção de pessoas favoráveis a uma determinada medida governamental, denotada por pˆ , é uma variável aleatória com valor esperado p ) pˆ ( E =

em que p denota o verdadeiro valor do parâmetro populacional, e variância n / ) p 1 ( p ) pˆ var( = −

em que n é o número de elementos da amostra.

Vimos que a Desigualdade de Tchebysheff pode ser dada pela expressão

2 k 1 ] k | X [| P −µ ≥ σ ≤ .

Nesta questão, podemos reescrever a desigualdade acima como 01 , 0 ] 01 , 0 | p pˆ [| P − ≥ ≤ .

Sendo assim, podemos calcular o valor de k:

01 , 0 k 1 2 = ⇒ k =10. Como k =σ 0,01 ⇒ σ=0,01/10=10−3 ⇒ σ2 =10−6.

Note que σ2 =var(pˆ)=p(1−p)/n. Temos o valor de σ2 = 10-6. Porém, não há condição de calcular 2 / ) p 1 ( p

n= − σ , pois a questão não forneceu o valor da média populacional (p). Logo, não podemos afirmar que o menor valor de n para o qual a desigualdade de Chebyshev resultará em uma garantia de que

01 , 0 ) 01 , 0 | p pˆ (| P − ≥ ≤ é 200.000 (faltam dados!).

(29)

Profs. Alexandre Lima e Moraes Junior

15. Quando o número de graus de liberdade δ cresce, a distribuição 2

δ

χ aproxima-se de uma distribuição normal com média δ e desvio padrão 2δ.

Resolução

A média da variável 2

δ

χ é δδδ e a variância é 2δδδ. Logo, a afirmativa é FALSA, pois diz que o desvio padrão de 2

δ

χ é 2δ..

De acordo com Teorema Central do Limite, a família de distribuições do tipo 2

δ

χ

tende à distribuição normal com média δ e variância 2δ quando o número de graus de liberdade δ aumenta.

GABARITO: FALSA

16. Um intervalo de confiança de 99% para a média µ de uma população, calculado para uma amostra aleatória, como [2,75; 8,25], pode ser interpretado como: a probabilidade de µ estar no intervalo calculado é de 99%.

Resolução

Uma estimativa do intervalo de confiança da média populacional µ (desconhecida) é um intervalo da forma l ≤ µ ≤ u, em que os limites inferior l e superior u dependem do valor numérico do estimador X para uma amostra particular. Como amostras distintas produzirão diferentes estimativas para µˆ

e, por conseguinte, valores diferentes para os limites l e u, esses limites são valores de variáveis aleatórias, como L e U, respectivamente. Da distribuição amostral de X somos capazes de determinar valores de L e U, tais que a seguinte afirmação probabilística seja verdadeira:

α − = ≤ µ ≤ U) 1 L ( P ,

sendo 0<α<1. Assim, temos uma probabilidade igual a 1−α de selecionar uma amostra que produzirá um intervalo contendo o valor verdadeiro do parâmetro µ.

O intervalo observado

u l≤µ≤

é chamado de intervalo com 100(1−α)% de confiança para o parâmetro µ. A interpretação de um intervalo de confiança é que se um número infinito de amostras aleatórias for coletado e um intervalo com 100(1−α)% de confiança para µ for calculado a partir de cada amostra, então 100(1−α)% desses intervalos conterão o valor verdadeiro de µ.

(30)

Profs. Alexandre Lima e Moraes Junior

Na prática, obtemos somente uma amostra aleatória e calculamos uma estimativa do intervalo de confiança. Uma vez que esse intervalo conterá ou não o valor verdadeiro de µµµ, não é razoável fixar um nível de probabilidade para essa realização. A afirmação apropriada é: o intervalo observado [l, u] contém o valor verdadeiro de µ, com

)% 1 (

100 −α de confiança. Essa afirmação tem uma interpretação de freqüência; ou seja, não sabemos se a afirmação é verdadeira para essa amostra específica, mas o método usado para obter o intervalo [l, u] resulta em afirmações corretas em 100(1−α)% do tempo.

GABARITO: FALSA

17. Se existe, todo estimador de máxima verossimilhança calculado para uma amostra aleatória possui distribuição Normal em grandes amostras.

Resolução

O Estimador de Máxima Verossimilhança possui distribuição assintótica normal

⇒ VERDADEIRA.

GABARITO: VERDADEIRA

18. (Analista da SUSEP/2002/ESAF) A função de verossimilhança para uma amostra aleatória de tamanho n de uma distribuição de probabilidades dependente de um parâmetro real θ vem dada por

   < θ ≥ θ θ + − = θ b 0 b } n mn exp{ ) ( l

onde m > 0 é a média das observações amostrais e b é a menor observação amostral. Assinale a opção que corresponde a estimativa de máxima verossimilhança de θ. A) nm B) b C) m D) nb E) m/b Resolução

A Estimativa de Máxima Verossimilhança (EMV) do parâmetro populacional desconhecido θ é o valor θˆ que maximiza a função de verossimilhança l(θ).

(31)

Profs. Alexandre Lima e Moraes Junior Podemos reescrever a função de verossimilhança l(θ) como:

   < θ ≥ θ = θ θ − b 0 b e . e ) ( l n mn Note que 1 e 1 e

0< −mn = mn < pois m (média amostral) e n (tamanho da amostra) n

são grandezas positivas. Além disso, e θ é uma função exponencial crescente, pois n >0. Portanto, o gráfico de l(θ) é crescente para θ ≥b, como ilustrado pela Fig. a seguir.

O gráfico da função de verossimilhança não possui um máximo absoluto, pois

∞ = θ ∞ → θ l( )

lim (a função é crescente para θ ≥b). O gabarito inicial era a alternativa (B) (θˆ=b), o que é um flagrante absurdo. A questão foi anulada.

b l

GABARITO: ANULADA

19. (ICMS-RJ/2010/FGV). Para estimar a proporção p de pessoas acometidas por uma certa gripe numa população, uma amostra aleatória simples de 1600 pessoas foi observada e constatou-se que, dessas pessoas, 160 estavam com a gripe.

Um intervalo aproximado de 95% de confiança para p será dado por: A) (0,066, 0,134).

B) (0,085, 0,115). C) (0,058, 0,142). D) (0,091, 0,109). E) (0,034, 0,166).

(32)

Profs. Alexandre Lima e Moraes Junior Resolução

A freqüência relativa amostral pˆ apresenta uma distribuição binomial, com média p e variância p −(1 p)/n. Sendo np ≥5 e n(1−p)≥5, é possível aproximar a binomial pela normal. Como p é desconhecido, adotamos como condições de aproximação np'=1600×0,1=160>5 e n(1−p')=1600×0,9=1440>5.

Como a amostra é suficientemente grande, o intervalo de confiança para p será da forma pˆ±ε, em que ε é dado por

015 , 0 1600 9 , 0 1 , 0 96 , 1 n ) pˆ 1 ( pˆ z e0 = 2,5% − = × × ≈ . Logo, pˆ+ε=0,1+0,015≈0,115 e pˆ−ε=0,1−0,015≈0,085. ⇒ IC = (0,085, 0,115). GABARITO: B

20. (ICMS-RJ/2010/FGV). Suponha que os salários dos trabalhadores numa certa região sejam descritos por uma variável populacional com média desconhecida e desvio padrão igual a R$200,00. Para se garantir, com 95% de probabilidade, que o valor da média amostral dos salários não diferirá do valor da média populacional por mais de R$10,00, a amostra aleatória simples deverá ter no mínimo, aproximadamente, o seguinte tamanho:

A) 3.568. B) 3.402. C) 2.489. D) 2.356. E) 1.537. Resolução Dados: X−µ=10, 1−α=95% e σ=200. 600 . 1 n 2 n / 200 10 96 , 1 n / 200 10 z n / X z n / X % 5 , 2 2 / = ∴ = ∴ ≈ ∴ ≈ σ µ − ∴ = σ µ − α

O valor mais próximo é o da opção E.

(33)

Profs. Alexandre Lima e Moraes Junior

elementos. A afirmação correta seria: o valor da média amostral dos salários não diferirá do valor da média populacional por mais de R$10,00 com 95% de confiança, dado que a amostra tenha um tamanho mínimo de 1.537 elementos. Na prática, obtemos somente uma amostra aleatória e calculamos uma estimativa do intervalo de confiança. Uma vez que esse intervalo conterá ou não o valor verdadeiro do parâmetro populacional µ, não é razoável fixar um nível de probabilidade para essa realização. A afirmação apropriada é: o intervalo observado [l, u] contém o valor verdadeiro do parâmetro µ, com

)% 1 (

100 −α de confiança. Essa afirmação tem uma interpretação de freqüência; ou seja, não sabemos se a afirmação é verdadeira para essa amostra específica, mas o método usado para obter o intervalo [l, u] resulta em afirmações corretas em 100(1−α)% do tempo.

GABARITO: E

21. (Analista da SUSEP/Atuária/2010/ESAF). Deseja-se estimar a proporção p de pessoas com determinada característica em uma população. Um levantamento preliminar forneceu pˆ =2/7. Usando essa estimativa, obtenha o menor tamanho de amostra aleatória simples necessária para estimar p com um intervalo de 95% de confiança e um erro de amostragem

% 2 n / qˆ pˆ z ≤ , onde qˆ=1−pˆ. A) 7840 B) 2500 C) 1960 D) 9604 E) 2401 Resolução

A semi-amplitude do intervalo de confiança para a proporção é dada por

=

0

e (variável normal reduzida zα/2) x (desvio padrão da proporção amostral) ou n / qˆ pˆ z n / ) pˆ 1 ( pˆ zα/2 − = α/2 = ε .

O examinador especificou que a relação z pˆqˆ/n ≤2% deve ser obedecida, a fim de que p seja estimado com um intervalo de 95% de confiança e um erro de amostragem ε menor ou igual a 0,02. “Moral da história”: a banca forneceu a fórmula a ser utilizada na solução da questão! De vez em quando isso acontece.

(34)

Profs. Alexandre Lima e Moraes Junior Isolemos a incógnita n na fórmula dada:

100 2 n qˆ pˆ z 2 / 1 ≤       2 2 2 2 / 1 10 2 n qˆ pˆ z        ≤                 ≤       4 2 10 4 n qˆ pˆ z ⇒ n 4 qˆ pˆ z 104 2 n 4 qˆ pˆ z 104 2 ≤ ⇒ 4 qˆ pˆ z 10 n 2 4 ≥

Então o valor limitante inferior para n, denotado por nmin, é dado por

4 qˆ pˆ z 10 n 2 4 min = .

Substituindo os valores pˆ =2/7, qˆ=1−pˆ=5/7 e z = 1,96 (pois α=5%) na expressão acima, obtemos

7 5 7 2 4 96 , 1 10 n 2 4 min × × × = ,

utilizando as aproximações 1,96 ≅ 2 e 49 ≅ 50, chegamos ao valor aproximado

000 . 2 5 000 . 10 50 5 2 10 n 4 min = = × × ≈ .

A opção C nos dá o valor mais próximo (1.960). Se você fizer as contas com a calculadora obterá o valor exato de 1.960.

GABARITO: C

Exercícios de Revisão

22. (Analista Técnico/SUSEP/2002/ESAF) Seja X uma variável aleatória com valor esperado µ e desvio padrão σ>0. Pode-se afirmar que

A) pelo menos 75% das realizações de X pertencerão ao intervalo [µ-2σ;µ+2σ] B) pelo menos 80% das realizações de X pertencerão ao intervalo [µ-2σ;µ+2σ] C) pelo menos 90% das realizações de X pertencerão ao intervalo [µ-2σ;µ+2σ] D) pelo menos 95% das realizações de X pertencerão ao intervalo [µ-2σ;µ+2σ] E) apenas com o conhecimento de µ e σ não é possível fazer afirmação sobre o percentual de realizações de X que cairão no intervalo [µ-2σ;µ+2σ].

(35)

Profs. Alexandre Lima e Moraes Junior

⇒ Seja X uma variável aleatória arbitrária com média µ e variância σ2. Então, para qualquer k >σ 0, vale

2 k 1 1 ] k X k [ Pµ+ σ< <µ+ σ ≥ − .

Análise das alternativas:

(A) P[µ−2σ<X<µ+2σ]≥0,75 ⇒ CORRETA. O teorema de Chebyshev afirma que P[µ−2σ<X<µ+2σ] é, no mínimo, igual a 2

2 1 1 − . Logo, 75 , 0 ] 2 X 2 [ Pµ− σ< <µ+ σ ≥ .

(B) a (D) estão INCORRETAS conforme demonstrado acima.

(E) Esta alternativa nega o teorema de Chebyshev ao dizer que não é possível, apenas com o conhecimento de µ e σ, fazer afirmação sobre o percentual de realizações de X que cairão no intervalo [µ-2σ;µ+2σ] ⇒ INCORRETA.

GABARITO: A

23. (Analista Ministerial/Estatística/MPE-PE/2006/FCC) Seja X uma variável aleatória assumindo os valores -2 e 2, com probabilidade 1/4 e 3/4, respectivamente. Seja µ a média de X. Então o limite superior de P[|X - µ| ≥

12], obtido pela desigualdade de Tchebysheff, é dado por A) 0,40 B) 0,25 C) 0,20 D) 0,12 E) 0,10 Resolução

(36)

Profs. Alexandre Lima e Moraes Junior A Desigualdade de Tchebysheff pode ser dada pela expressão

2 k 1 ] k | X [| P −µ ≥ σ ≤ .

Dados: i) k =σ 12, ii) distribuição de probabilidades de X (logo é possível calcular a média µ e o desvio padrão σ de X).

1 4 3 2 4 1 2 ) x ( f x ) X ( E i i i =      × +       × = = = µ

3 1 4 3 2 4 1 ) 2 ( ) x ( f x ) X ( E 2 2 2 i 2 i 2 i 2 2 2 =      × +       × = µ − = µ − = σ

Então 3 12 k = σ σ ⇒ k = 2. 2 2 1 ] 3 2 | 1 X [|

P − ≥ ≤ ⇒ P[|X−1|≥2 3]≤0,25 ⇒ limite superior da probabilidade de que X difira da média populacional por ±2 3 é 0,25.

GABARITO: B

24. (Especialista em Assistência Social/Estatística/SEJUS-DF/2010/Fundação Universa) Um torneio de tênis será disputado por quatro jogadores (A, B, C e D). Na primeira rodada, A jogará contra B, e C jogará contra D. Os vencedores dessas duas partidas irão disputar a grande final e desse jogo sairá o campeão. Dada a tabela a seguir, que informa as probabilidades de cada jogador vencer o outro, e sabendo que o jogador A venceu o jogador B, assinale a alternativa que apresenta a probabilidade de C sagrar-se campeão. jogador A B C D Probabilidade de vencer o jogador A - 40% 30% 20% Probabilidade de vencer o jogador B 60% - 55% 10% Probabilidade de vencer o jogador C 70% 45% - 65% Probabilidade de vencer o jogador D 80% 90% 35% - A) 7% B) 10,5%

(37)

Profs. Alexandre Lima e Moraes Junior D) 19,5%

E) 30,0%

Resolução

P[C ser campeão] = P[C vencer D] x P[C vencer A] = 0,35 x 0,30 = 0,105 P[C ser campeão] = 10,5%

GABARITO: B

25. (Especialista em Assistência Social/Estatística/SEJUS-DF/2010/Fundação Universa) Considere o algoritmo a seguir:

S=0 k=0 ENQUANTO (k < 5) FAÇA S = S + Xk k=k+1 FIM S = S/k

Sabendo que X0 = 1, X1 = 7, X2 = 3, X3 = 2 e X4 = 5, assinale a alternativa que contém a medida de posição que o algoritmo apresentado calcula e o valor final da variável S quando o algoritmo finalizar o seu processamento.

A) Média, S = 4 B) Variância, S = 4,8 C) Média, S = 3 D) Variância, S = 5 E) Média, S = 2 Resolução

O fato de a variância não ser uma medida de posição, mas de dispersão dos dados, já nos permite eliminar as alternativas B e D. Analisemos o algoritmo. Valores iniciais das variáveis S e k:

• k=0

• S=0 A rotina

(38)

Profs. Alexandre Lima e Moraes Junior ENQUANTO (k < 5) FAÇA S = S + Xk k=k+1 FIM

especifica um loop de programação em que k é a variável que controla o fim do loop.

O passo zero do algoritmo é a inicialização das variáveis S = k =0. Vejamos a evolução do algoritmo após a inicialização a seguir.

Passo 1: k = 0 e S = 0 (valores iniciais) Como k = 0 é menor que 5, faça:

• S(atual) = S(anterior) + X0 = 0 + 1 = 1

• k(atual) = k(anterior) + 1 = 0 + 1 = 1

Passo 2: k = 1 e S = 1 (valores determinados no passo anterior) Como k = 1 é menor que 5, faça:

• S(atual) = S(anterior) + X1 = 1 + 7 = 8

• k(atual) = k(anterior) + 1 = 1 + 1 = 2 Passo 3: k = 2 e S = 8

Como k = 2 é menor que 5, faça:

• S(atual) = S(anterior) + X2 = 8 + 3 = 11

• k(atual) = k(anterior) + 1 = 2 + 1 = 3 Passo 4: k = 3 e S = 11

Como k = 3 é menor que 5, faça:

• S(atual) = S(anterior) + X3 = 11 + 2 = 13

• k(atual) = k(anterior) + 1 = 3 + 1 = 4 Passo 5: k = 4 e S = 13

(39)

Profs. Alexandre Lima e Moraes Junior

• k(atual) = k(anterior) + 1 = 4 + 1 = 5 Passo 6: k = 5 e S = 18

Como k = 5, faça

• S(atual) = S(anterior)/k = 18/5 = 3,6

O valor final de S é 3,6. Observe que o algoritmo calcula a média aritmética do conjunto de dados fornecido. A alternativa com o valor mais próxima é a A (S = 4).

GABARITO: A

26. (Especialista em Assistência Social/Estatística/SEJUS-DF/2010/Fundação Universa) Considere a variável X com média 5 e desvio padrão 2 e a variável Y com média 2 e desvio padrão 5. Se a variância de X + Y é igual a 8 e a variância de X - Y é igual a 4, assinale a alternativa que apresenta o coeficiente de correlação de X e Y.

A) 1 B) 0,5 C) 0,1 D) -0,1 E) -1 Resolução Dados: • Variável X: X =5 e σx =2 • Variável Y: Y =2 e σy =5 • var(X+Y)=8 • var(X−Y)=4

Deseja-se calcular o coeficiente de correlação de X e Y:

y x ) Y , X cov( ) Y , X ( σ σ = ρ

A banca forneceu os valores σx =2 e σy =5. Logo, saberemos o valor da correlação se calcularmos o valor da covariância.

(40)

Profs. Alexandre Lima e Moraes Junior Sejam os coeficientes (ou valores constantes) α e β. Sabemos que

) Y var( ) Y , X cov( 2 ) X var( ) Y X var(α +β =α2 + αβ +β2 e que ) Y var( ) Y , X cov( 2 ) X var( ) Y X var(α −β =α2 − αβ +β2

pois o enunciado não diz que X e Y são independentes. Substituindo os valores α = β = 1, obtemos

) Y var( ) Y , X cov( 2 ) X var( ) Y X var( + = + + (1) ) Y var( ) Y , X cov( 2 ) X var( ) Y X var( − = − + (2)

Como var(X+Y)=8 e var(X−Y)=4, chegamos ao seguinte sistema de equações:    = + − = + + 4 ) Y var( ) Y , X cov( 2 ) X var( 8 ) Y var( ) Y , X cov( 2 ) X var(

Multipliquemos a segunda equação do sistema por -1:

   − = − + − = + + 4 ) Y var( ) Y , X cov( 2 ) X var( 8 ) Y var( ) Y , X cov( 2 ) X var(

Somando as duas equações, obtemos a equação

4 8 ) y var( ) Y var( ) Y , X cov( 2 ) Y , X cov( 2 ) X var( ) X var( − + + + − = − 4 ) Y , X cov( 4 = 1 4 4 ) Y , X cov( = = Logo, 1 , 0 10 1 5 2 1 ) Y , X cov( ) Y , X ( y x = = × = σ σ = ρ GABARITO: C

(41)

Profs. Alexandre Lima e Moraes Junior

27. (Especialista em Assistência Social/Estatística/SEJUS-DF/2010/Fundação Universa) Considere a sequência a seguir e assinale a alternativa que apresenta, respectivamente, sua média, mediana e moda.

1, 1, 1, 1, 2, 5, 6, 9, 10 A) 4, 2 e 1 B) 4, 1 e 2 C) 2, 4 e 1 D) 2, 1 e 4 E) 1, 4 e 2 Resolução Média: 4 9 36 9 10 9 6 5 2 1 1 1 1 X= + + + + + + + + = =

A mediana de uma série de n valores ordenados, sendo n ímpar (n = 9), é o valor de ordem (n+1)/2 = 10/2 = 5:

1, 1, 1, 1, 2, 5, 6, 9, 10

Então a mediana é 2.

A moda é 1, pois é o valor de maior frequência (ocorre 4 vezes). GABARITO: A

28. (Especialista em Assistência Social/Estatística/SEJUS-DF/2010/Fundação Universa) A tabela a seguir evidencia uma entrevista feita com 50 clientes, dividida por faixa etária.

ordem da

faixa etária faixa etária número de clientes

1ª 18 |— 25 12

2ª 25 |— 32 24

3ª 32 |— 40 8

4ª 40 |— 48 6

Com base nos dados dessa entrevista, é correto afirmar que

A) há, na primeira faixa etária, ao menos 1 entrevistado com 25 anos.

(42)

Profs. Alexandre Lima e Moraes Junior B) 12% dos entrevistados têm mais de 40 anos de idade.

C) pelo menos 1 entrevistado, na terceira faixa etária, tem 32 anos. D) 48% dos entrevistados têm entre 18 e 32 anos.

E) 88% dos entrevistados têm menos de 40 anos de idade. Resolução

Reproduzimos a seguir a tabela dada pelo enunciado acrescida das colunas “frequência” e “frequência acumulada”.

ordem da faixa etária faixa etária número de clientes frequência freq. acumulada 1ª 18 |— 25 12 12/50 = 24% 24% 2ª 25 |— 32 24 24/50 = 48% 72% 3ª 32 |— 40 8 8/50 = 16% 88% 4ª 40 |— 48 6 6/50 = 12% 100%

Análise das alternativas:

A) a classe 18 |— 25 não inclui quem tem 25 anos, pois a classe é aberta à direita ⇒ afirmativa incorreta (*). Suponha que a 1ª classe fosse 18 |– 26. Ainda assim a afirmativa estaria incorreta, pois não se pode assegurar que a classe conterá pelo menos 1 entrevistado com 25 anos.

(*) A notação 18 |— 25 é equivalente a usar a notação [18, 25) para designar o intervalo de números contendo o extremo 18 mas não contendo o extremo 25.

B) incorreta, haja vista que 12% dos entrevistados têm pelo menos 40 anos (lembre que o intervalo da classe é fechado à esquerda).

C) o fato de a classe 32 |— 40 incluir o extremo esquerdo (= 32) não garante que pelo menos 1 entrevistado, nesta faixa etária, tem 32 anos. Por exemplo, os 8 clientes podem ter 35 anos de idade. Assertiva incorreta.

D) incorreta, pois 72% dos entrevistados têm entre 18 e 32 anos (vide coluna de frequências acumuladas na tabela acima).

E) correta, pois a frequência acumulada até a 3ª classe é de 88%. GABARITO: E

(43)

Profs. Alexandre Lima e Moraes Junior Moraes Junior

moraesjunior@pontodosconcursos.com.br Alexandre Lima

Referências

Documentos relacionados

complexa. De fato, o pensamento cartesiano opera a partir de causalidades simples. Assim, as políticas públicas apenas detectam uma variável e, com isso, tendem a perder

Os candidatos reclassificados deverão cumprir os mesmos procedimentos estabelecidos nos subitens 5.1.1, 5.1.1.1, e 5.1.2 deste Edital, no período de 15 e 16 de junho de 2021,

Desta maneira, observando a figura 2A e 2C para os genótipos 6 e 8, nota-se que os valores de captura da energia luminosa (TRo/RC) são maiores que o de absorção (ABS/RC) e

- Se o estagiário, ou alguém com contacto direto, tiver sintomas sugestivos de infeção respiratória (febre, tosse, expetoração e/ou falta de ar) NÃO DEVE frequentar

Principais fontes de financiamento disponíveis: Autofinanciamento: (corresponde aos fundos Principais fontes de financiamento disponíveis: Autofinanciamento: (corresponde aos

Both the distribution of toxin concentrations and toxin quota were defined by epilimnetic temperature (T_Epi), surface temperature (T_Surf), buoyancy frequency (BuoyFreq) and

Atualmente os currículos em ensino de ciências sinalizam que os conteúdos difundidos em sala de aula devem proporcionar ao educando o desenvolvimento de competências e habilidades

Este trabalho tem como objetivos apresentar os problemas ocasionados pelo recebimento de mensagens não solicitadas e pesquisar técnicas variadas no combate ao spam, em especial,