• Nenhum resultado encontrado

O teorema do limite central

No documento Estatística, Notas de apoio às aulas (páginas 194-200)

7.3 Distribui¸c˜ ao amostral de ¯ x

7.3.3 O teorema do limite central

Outra caracter´ıstica interessante que constat´amos sobre a distribui¸c˜ao da m´edia amostral tem a ver com a sua normalidade, que observ´amos ocorrer, no caso da vari´avel Y para todos os valores de n, e no caso da vari´avel X para valores moderados e grandes de n.

Quando a dimens˜ao da amostra for grande, h´a um teorema matem´atico, conhecido como teorema central do limite ou teorema do limite central, que assegura que, nesse caso, a distribui¸c˜ao da m´edia amostral ´e aproximadamente normal. A palavra “central” deve-se `a importˆancia que este resultado teve na investiga¸c˜ao matem´atica em Probabilidades, nas primeiras d´ecadas do s´eculo passado.

tenreiro

@

mat.uc.pt

Teorema do limite central:

Se ¯x ´e calculada a partir de n observa¸c˜oes independentes com m´edia µ e desvio-padr˜ao σ, ent˜ao

¯

x≃ N µ, σ/√n para n grande.

Reparemos que a aproxima¸c˜ao normal obtida anteriormente para a distribui¸c˜ao amostral da propor¸c˜ao bp, ´e um caso particular do teorema do limite central. Com efeito, usando (6.3.1), bp ´e a m´edia das vari´aveis S1, S2, . . . , Sn,

b p = 1

n(S1+ S2+ . . . + Sn),

que como vimos tˆem m´edia µ = p e desvio-padr˜ao σ = pp(1− p). Pelo teorema do limite central conclu´ımos que

b

p≃ Np,pp(1− p)/√n, ou seja,

b

p≃ Np,pp(1− p)/n,

que foi precisamente a aproxima¸c˜ao normal dada anteriormente para a distribui¸c˜ao amostral de bp.

O comportamento da distribui¸c˜ao da m´edia amostral descrito no teorema do limite central, ocorre tamb´em em situa¸c˜oes mais gerais do que aquelas que enunci´amos. Por exemplo, a aproxima¸c˜ao normal para a m´edia amostral ´e ainda v´alida em casos em que h´a dependˆencia entre as diversas observa¸c˜oes, ou em casos em que as v´arias ob- serva¸c˜oes n˜ao podem ser consideradas realiza¸c˜oes de vari´aveis aleat´orias com a mesma distribui¸c˜ao. Em particular, se a amostra ´e recolhida por amostragem aleat´oria simples duma popula¸c˜ao finita, o teorema do limite central ´e ainda v´alido.

A qualidade da aproxima¸c˜ao da distribui¸c˜ao da m´edia amostral pela distribui¸c˜ao normal, depende muito da forma da distribui¸c˜ao de probabilidade subjacente `a vari´avel observada. Se uma tal distribui¸c˜ao for pr´oxima da distribui¸c˜ao normal, ser´a de esperar que a aproxima¸c˜ao normal para a distribui¸c˜ao da m´edia amostral ocorra para valores de n mais pequenos do que no caso em que a distribui¸c˜ao da vari´avel observada for muito diferente da distribui¸c˜ao normal. Quando a distribui¸c˜ao das observa¸c˜oes ´e exactamente normal a distribui¸c˜ao da m´edia amostral ´e exactamente normal para qualquer dimens˜ao da amostra. Isto explica os resultados observados no Exemplo 7.3.2.

tenreiro

@

mat.uc.pt

Distribui¸c˜ao de ¯x para observa¸c˜oes normais e independentes: Se ¯x ´e calculada a partir de n observa¸c˜oes normais e independentes com m´edia µ e desvio-padr˜ao σ, ent˜ao

¯

x∼ N µ, σ/√n para todos os valores de n.

Exemplo 7.3.3 Vimos no Exemplo 6.2.3, como podemos controlar a qualidade dum processo de fabrico atrav´es da constru¸c˜ao duma carta de controlo. No exemplo que foc´amos sobre o controlo do peso de pacotes de a¸cucar empacotados por uma m´aquina, que em condi¸c˜oes ideais de funcionamento produz pacotes cuja distribui¸c˜ao dos pesos possui uma distribui¸c˜ao normal com m´edia 1000 gramas e com desvio-padr˜ao 10 gramas, cada um dos pontos marcado na carta de controlo resultava duma ´unica observa¸c˜ao o que introduz no processo de controlo uma variabilidade indesejada. Mais natural ´e que cada ponto marcado resulte da observa¸c˜ao de mais do que um pacote. Admitamos assim que para controlar o processo de empacotamento, de hora a hora ´e recolhida uma amostra de 5 pacotes, que acabaram de sair da m´aquina, e ´e registado o seu peso m´edio. Como esta m´edia ´e uma m´edia de observa¸c˜oes normais que vamos admitir independentes, o resultados anterior permite concluir que

¯

x∼ N(1000, 10/√5).

Em particular, e atendendo `a regra 68-95-99.7, podemos dizer que 99.7% dos pesos m´edios assim registados pertence ao intervalo [1000− 3 × 10/√5, 1000− 3 × 10/√5] = [986.6, 1013.4]. Se alguma das m´edias registadas n˜ao pertence a este intervalo, isso pode ser uma indica¸c˜ao de que a m´aquina est´a a funcionar mal, necessitando por isso de ser calibrada.

Vejamos dois exemplos simples de utiliza¸c˜ao do teorema do limite central, no c´alculo de probabilidades associadas a uma vari´avel aleat´oria que se exprime como soma de vari´aveis aleat´orias independentes.

Exemplo 7.3.4 Suponhamos que decidimos lan¸car um dado equilibrado 100 vezes consecutivas, e que apostamos com um amigo A que vamos obter pelo menos 350 pontos na soma dos pontos obtidos nos v´arios lan¸camentos, e com outro amigo B que vamos obter mais do que 400 pontos. Qual ´e a probabilidade de ganharmos a aposta com cada um dos nossos dois amigos? Se representarmos por X1, X2, . . . , X100 os pontos obtidos

tenreiro

@

mat.uc.pt

em cada um dos 100 lan¸camentos e por S a sua soma, isto ´e, S = X1+ X2+ . . . + X100,

as probabilidades pedidas s˜ao dadas por P(S ≥ 350) e P(S > 400), respectivamente. Como vimos no Exemplo 5.3.1, cada uma das vari´aveis Xi tem m´edia 3.5 e desvio-

-padr˜ao √2.9167. Atendendo ao teorema do limite central, a m´edia amostral ¯

x = (X1+ X2+ . . . + X100)/100 = S/100,

´e aproximadamente normal com m´edia 3.5 e desvio-padr˜ao √2.9167/√100 ≈ 0.1708. Para obter resultados mais fidedignos, vamos usar a correc¸c˜ao de continuidade no c´alculo das duas probabilidades anteriores. Assim, denotando por Z a vari´avel nor- mal standard, temos

P(S ≥ 350) = P(S ≥ 349.5) = P(¯x≥ 3.495) = P  ¯ x− 3.5 0.1708 ≥ 3.495− 3.5 0.1708  ≈ P(Z ≥ −0.029) = 1− 0.4884 = 0.5116 e P(S > 400) = P(S > 400.5) = P(¯x > 4.005) = P  ¯ x− 3.5 0.1708 > 4.005− 3.5 0.1708  ≈ P(Z > 2.957) = 1− 0.9984 = 0.0016.

Exemplo 7.3.5 Suponhamos que no jogo da roleta descrito no Exemplo 5.5.2 (p´ag. 144), o jogador decide jogar 100 partidas numa das suas idas ao casino. Calculemos uma aproxima¸c˜ao para a probabilidade dele ganhar mais do que aquilo que perde. Representando por Xi o ganho (ou perda) l´ıquido do jogador na i-´esima partida, o

ganho l´ıquido do jogador no fim das 100 partidas ´e dado por G = X1+ X2+ . . . + X100.

Estas vari´aveis j´a foram por n´os estudadas no Exemplo 5.5.2, onde vimos que possuiam m´edia −0.27 euros e desvio-padr˜ao √3408.035 ≈ 58.3784 euros. Usando o teorema do limite central, sabemos que a m´edia amostral ¯x = G/100, pode ser aproximada pela distribui¸c˜ao normal de m´edia −0.27 e desvio-padr˜ao 58.3784/√100 = 5.83784. Assim, denotando por Z a vari´avel normal standard, temos (para efectuar a correc¸c˜ao de continuidade, devemos ter em conta que G toma valores de 10 em 10)

tenreiro

@

mat.uc.pt

= P(¯x > 0.05) = P  ¯ x− (−0.27) 5.83784 > 0.05− (−0.27) 5.83784  ≈ P(Z > 0.055) = 1− 0.5219 = 0.4781.

Vejamos agora o que acontece `a probabilidade anterior, se o jogador decide jogar 1000 partidas em vez de 100. Neste caso, G = X1 + X2 + . . . + X1000 e a m´edia

amostral, ¯x = G/1000, pode ser aproximada pela distribui¸c˜ao normal de m´edia −0.27 e desvio-padr˜ao 58.3784/√1000 ≈ 1.8461, e portanto P(G > 0) = P(G > 5) = P(¯x > 0.005) = P  ¯ x− (−0.27) 1.8461 > 0.005− (−0.27) 1.8461  ≈ P(Z > 0.149) = 1− 0.5592 = 0.4408.

Vemos assim, que quantas mais partidas o jogador joga, mais probabilidade tem de sair do casino com menos dinheiro do que quando entrou. Esta conclus˜ao est´a de acordo com as conclus˜oes a que cheg´amos atrav´es da lei dos grandes n´umeros.

7.4

Bibliografia

Anderson, D.R., Sweeney, D.J., Williams, T.A. (2002). Estat´ıstica Aplicada `a Admi-

nistra¸c˜ao e Economia, Pioneira.

McPherson. G. (1990). Statistics in Scientific Investigation: its basis, application and

interpretation, Springer-Verlag.

Moore, D.S. (1985). Statistics: concepts and controversies, W.H. Freeman and Com- pany.

Moore, D.S., McCabe, G.P. (2003). Introduction to the Practice of Statistics, W.H. Freeman and Company.

tenreiro

@

mat.uc.pt

Intervalos de confian¸ca para propor¸c˜oes

e m´edias

Inferˆencia estat´ıstica. No¸c˜ao de intervalo de confian¸ca. Margem de erro e n´ıvel de con-

fian¸ca. Intervalos de confian¸ca para propor¸c˜oes. Intervalos de confian¸ca para m´edias.

O caso das popula¸c˜oes normais. A distribui¸c˜ao de Student. Como escolher o tamanho

da amostra.

8.1

Inferˆencia estat´ıstica

T˜ao ou mais interessantes do que as aplica¸c˜oes do teorema do limite central com que termin´amos o cap´ıtulo anterior, s˜ao as suas aplica¸c˜oes `a inferˆencia estat´ıstica que va- mos abordar em detalhe neste e no pr´oximo cap´ıtulo. O conhecimento das distribui¸c˜oes amostrais das estat´ısticas ¯x e bp, ou da respectiva aproxima¸c˜ao normal, ´e de importˆancia fundamental na implementa¸c˜ao de dois procedimentos de inferˆencia estat´ıstica, conhe- cidos como intervalos de confian¸ca e testes de hip´oteses, cujo objectivo comum ´e inferir sobre um parˆametro desconhecido da popula¸c˜ao que estudamos, e que no caso particular das estat´ısticas ¯x e bp, ou ´e uma m´edia, µ, ou uma propor¸c˜ao, p, respectiva- mente.

Exemplo 8.1.1 Para ilustrar o que acab´amos de dizer, recordemos o Exemplo 4.3.1 em que uma moeda portuguesa de um euro foi lan¸cada 50 vezes tendo-se obtido 45 vezes a face europeia e 5 vezes a face portuguesa. A quest˜ao que coloc´amos na altura era a de saber qual era a probabilidade de sair a face europeia. Vimos que a res- posta a esta quest˜ao poderia depender do nosso conhecimento sobre a experiˆencia em causa, em particular sobre o facto de termos, ou n˜ao, raz˜oes para admitir que a moeda ´e equilibrada. Representando por p a probabilidade de ocorrˆencia da face europeia no lan¸camento desta moeda, sabemos j´a que estamos na presen¸ca duma experiˆencia aleat´oria binomial de parˆametros n = 50 e p, onde p ´e um parˆametro desconhecido

tenreiro

@

mat.uc.pt

sobre o qual pretendemos inferir. Atendendo `a lei dos grandes n´umeros sabemos que a propor¸c˜ao de faces europeias observadas, bp = 45/50 = 0.9, ´e uma aproxima¸c˜ao da probabilidade p de ocorrˆencia da face europeia no lan¸camento desta moeda.

Se al´em da estimativa 0.9 (dita estimativa pontual), pretendemos dar indica¸c˜ao sobre a precis˜ao da mesma, que ser´a naturalmente dada sob a forma dum intervalo cuja amplitude indicar´a a precis˜ao da estimativa, estamos ca´ıdos num problema de estima¸c˜ao por intervalos de confian¸ca.

Em vez de pretendermos uma aproxima¸c˜ao para p, poderemos querer saber se a mo- eda ´e, ou n˜ao, equilibrada. Por outras palavras, poderemos querer saber se a propor¸c˜ao observada, 0.9, ´e, ou n˜ao, compat´ıvel com a hip´otese p = 0.5 da moeda ser equilibrada. Temos neste caso um problema de testes de hip´oteses.

Podemos assim dizer, que no caso dos intervalos de confian¸ca, pretende-se esti- mar o parˆametro de interesse dando indica¸c˜ao da precis˜ao da estimativa apresentada, enquanto que no caso dos testes de hip´oteses pretende-se avaliar a adequa¸c˜ao das observa¸c˜oes realizadas com uma hip´otese formulada, a priori, sobre o parˆametro de interesse. Em ambos os casos, e ´e essa caracter´ıstica que distingue a estat´ıstica in- ferencial da estat´ıstica descritiva, pretende-se quantificar a confian¸ca que temos nas conclus˜oes que apresentamos, ou de forma equivalente, quantificar o erro que pode- mos estar a cometer. Como veremos a seguir, o conhecimento da distribui¸c˜ao amostral da estat´ıstica de interesse, seja ela a m´edia amostral ¯x ou a propor¸c˜ao amostral bp, ´e essencial para atingirmos estes objectivos.

No documento Estatística, Notas de apoio às aulas (páginas 194-200)