Estat´ıstica (MAD231) Turma: IGA
Per´ıodo: 2015/2
Inferˆencia Estat´ıstica: como fazer afirma¸c˜oes sobre uma popula¸c˜ao conhecendo uma amostra da popula¸c˜ao?
Referˆencia: Bussab e Morettin - Estat´ıstica B´asica - Editora Saraiva - Cap´ıtulo 10.
Introdu¸c˜ao
O uso de informa¸c˜oes de uma amostra para concluir sobre o todo faz parte da atividade di´aria da maioria das pessoas.
Observe como uma dona de casa verifica se o feij˜ao est´a bom de sal. Ou ainda, observe quando um cliente de supermercado, ap´os pro-var uma uva rosada na se¸c˜ao de horti-fruti, decide se vai comprar ou n˜ao dessas uvas.
Es-Conceitos Importantes
Popula¸c˜ao: ´e o conjunto de todos os elemen-tos sob investiga¸c˜ao com pelo menos uma ca-racter´ıstica em comum.
Amostra: ´e qualquer subconjunto n˜ao-vazio da popula¸c˜ao.
Parˆametro: Caracter´ıstica num´erica da po-pula¸c˜ao.
Estat´ıstica: Caracter´ıstica num´erica da amos-tra.
Observe que aqui o uso da palavra estat´ıstica tem outro significado.
Com o conceito que acabamos de apresentar podemos dizer que usamos estat´ısticas para es-timar parˆametros.
Um estimador de um parˆametro ´e uma es-tat´ıstica.
Uma quest˜ao importante na Inferˆencia Estat´ ısti-ca ´e: “Como avaliar um estimador?”
Problemas de Inferˆencia
• Verifica¸c˜ao do tempo de vida m´edio da lˆampada fluorescente especificado pelo fa-bricante. Essa verifica¸c˜ao pode fazer parte de
1. um procedimento de controle de qua-lidade da empresa - se o tempo m´edio de vida da amostra retirada de um lote de tais lˆampadas n˜ao atender `a especi-fica¸c˜ao estabelecida, ent˜ao todo o lote deve ser rejeitado;
2. um procedimento de um ´org˜ao de de-fesa do consumidor - se o tempo m´edio de vida de uma amostra de tais lˆampadas obtidas de diversos pontos de venda aten-der `a especifica¸c˜ao do fabricante, ent˜ao a reclama¸c˜ao dos consumidores n˜ao de-ver´a ser aceita.
• Avalia¸c˜ao de um novo produto. Antes do lan¸camento, o novo produto ser´a distribu´ ı-do a um grupo de consumiı-dores potenci-ais que responder˜ao um question´ario. Se os resultados dos question´arios mostrarem que o novo produto foi bem aceito, ent˜ao o grupo de marketing ter´a suporte para de-fender o lan¸camento do novo produto.
• Previs˜ao do tempo m´edio de espera dos clientes no caixa de um banco. Se o tempo m´edio de espera de uma amostra de clientes for maior que o tempo m´edio afirmado pelo gerente da agˆencia, ent˜ao ser´a bastante prov´avel que as reclama¸c˜oes dos clientes tenham fundamento.
• H´a raz˜oes para supor que o tempo de rea-¸
c˜ao Y a certo est´ımulo visual depende da idade do indiv´ıduo. Suponha que essa de-pendˆencia seja linear.
Para verificar se essa suposi¸c˜ao ´e verdadeira, obtiveram-se 20 dados da seguinte forma: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres. Dentro de cada grupo, de homens e mulheres, foram sele-cionadas duas pessoas das seguintes faixas de idade: 20, 25, 30, 35 e 40 anos.
Cada pessoa foi submetida ao teste e seu tempo de rea¸c˜ao y foi registrado.
A popula¸c˜ao poderia ser considerada como formada por todas aquelas pessoas que vies-sem a ser submetidas ao teste, segundo o sexo e a idade. A amostra ´e formada pelas 20 medidas de tempos de rea¸c˜ao.
• Previs˜ao da popula¸c˜ao brasileira por gˆenero e idade a fim de formular pol´ıticas p´ublicas para os pr´oximos 40 anos.
Existem diversos modelos de previs˜ao de tamanho de popula¸c˜ao. Diversos fatores interferem na dinˆamica da popula¸c˜ao. Na quinta-feira, dia 29 de agosto de 2013, o IBGE divulgou que no Brasil j´a s˜ao 201 milh˜oes de habitantes e tamb´em apresen-tou uma previs˜ao sobre a popula¸c˜ao por gˆenero e idade at´e 2060.
A popula¸c˜ao total projetada para o Brasil em 2013 foi de 201,0 milh˜oes de habitantes, atingindo 212,1 milh˜oes em 2020, at´e alcan¸car o m´aximo de 228,4 milh˜oes em 2042, quando come¸car´a a decrescer, atingindo o valor de 218,2 em 2060, n´ıvel equiva-lente ao projetado para 2025 (218,3 milh˜oes).
2
Como selecionar uma amostra?
As observa¸c˜oes contidas numa amostra s˜ao tanto mais informativas sobre a popula¸c˜ao, quan-to mais conhecimenquan-to tivermos dessa mesma popula¸c˜ao.
Por exemplo a an´alise quantitativa de gl´obulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente d´a a ideia geral da quantidade de gl´obulos brancos no corpo todo, pois sabe-se que a distribui¸c˜ao dos gl´obulos brancos ´e homogˆenea, e de qualquer lugar que se tivesse retirado a amostra ela seria “representativa”.
Nem sempre a escolha de uma amostra ade-quada ´e imediata.
Procedimentos de levantamento de dados (Bussab & Morettin)
1. Levantamentos Amostrais - a amostra ´e obtida de uma popula¸c˜ao bem definida, por meio de processos bem protocolados e contro-lados pelo pesquisador.
Tais levantamentos costumam ser subdividi-dos em dois subgrupos: probabil´ısticose n˜ ao-probabil´ısticos. O primeiro re´une todas as t´ecnicas que usam mecanismos aleat´orios de sele¸c˜ao dos elementos de uma amostra, atri-buindo a cada um deles, uma probabilidade, conhecida a priori, de pertencer `a amostra.
No segundo grupo est˜ao os demais procedi-mentos, tais como amostras intencionais, nas quais os elementos s˜ao selecionados com o aux´ılio de especialistas, e amostras de volunt´ a-rios, como ocorre em alguns testes sobre novos medicamentos e vacinas.
A grande vantagem dos procedimentos proba-bil´ısticos ´e poder medir a precis˜ao da amostra obtida.
2. Planejamento de Experimentos. Tˆem como principal objetivo analisar o efeito de uma vari´ a-vel sobre outra(s). Requer interferˆencias do pesquisador sobre o ambiente em estudo (po-pula¸c˜ao), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.
Exemplo: A altura de um produto na gˆondola de um supermercado afeta as vendas do pro-duto? Se sim, como?
3. Levantamentos Observacionais. Os da-dos s˜ao coletados sem que o pesquisador te-nha controle sobre as informa¸c˜oes obtidas, ex-ceto eventualmente sobre poss´ıveis erros gros-seiros. As s´eries de dados temporais s˜ao e-xemplos t´ıpicos desses levantamentos.
Exemplo: suponha o problema de prever as vendas futuras numa empresa em fun¸c˜ao das vendas passadas. O pesquisador n˜ao pode se-lecionar dados, esses s˜ao as vendas efetiva-mente ocorridas.
Observe que aqui tamb´em se encaixa o pro-blema de proje¸c˜oes de tamanhos populacionais.
Amostra Aleat´oria Simples(AAS)
Uma amostra aleat´oria simples ocorre quando atribu´ımos probabilidades de sele¸c˜ao na amos-tra iguais para todos os elementos da popula-¸
c˜ao.
Com rela¸c˜ao `a precis˜ao neste tipo de amostra-gem existe diferen¸ca se a sele¸c˜ao ´e feita com reposi¸c˜ao ou sem reposi¸c˜ao.
No entanto, quando o tamanho da amostra for muito inferior ao tamanho da popula¸c˜ao (menor que 5% da popula¸c˜ao) a sele¸c˜ao sem reposi¸c˜ao comporta-se, de modo aproximado, como uma sele¸c˜ao com reposi¸c˜ao, e nesse caso costuma-se tratar o problema como se fosse com reposi¸c˜ao.
Distribui¸c˜ao Amostral
No in´ıcio da aula falamos em usar estat´ısticas para estimar um parˆametro.
Na pr´atica s´o podemos obter uma amostra da popula¸c˜ao e, com base nela, tirar conclus˜oes sobre a popula¸c˜ao.
Como poderemos fazer afirma¸c˜oes sobre a qua-lidade das nossas conclus˜oes? Como podere-mos falar sobre o erro decorrente da variabili-dade amostral?
A resposta a essas perguntas envolve o con-ceito de distribui¸c˜ao amostral.
Suponha o problema de estimar um parˆametro θ de certa popula¸c˜ao e que para isso dismos de uma adismostra de tamanho n dessa po-pula¸c˜ao: x1, x2, ..., xn. Suponha tamb´em que usaremos uma estat´ıstica T fun¸c˜ao da amostra para estimar θ.
T = t(x1, x2, ..., xn)
T pode ser a soma (
n
X
i=1
xi), a m´edia (¯x), a me-diana, a amplitude, o desvio padr˜ao amostral, e sua escolha depender´a do parˆametro que que-remos estimar.
Para poder avaliar a qualidade de T como esti-mador de θ ´e fundamental conhecer o modelo probabil´ısitco que explica a variabilidadde de seus valores, ou seja, a distribui¸c˜ao amostral de T .
A figura a seguir ilustra como poder´ıamos ficticiamente obter essa distribui¸c˜ao.
Mas como poderemos pelo menos fazer um histograma de valores da estat´ıstica se s´o dis-pomos de uma amostra?
O Teorema Central do Limite da Teoria das Probabilidades ´e uma pe¸ca chave para resolver esse problema.
Vamos simplificar o problema de estima¸c˜ao de um parˆametro gen´erico θ para um problema espec´ıfico de estima¸c˜ao da m´edia populacional, µ.
Para isso dispomos de uma amostra aleat´oria de tamanho n da popula¸c˜ao cujos valores ob-servados s˜ao x1, x2, ..., xn.
No que segue usaremos: µ para a m´edia da popula¸c˜ao e
σ2 para a variˆancia da popula¸c˜ao (σ - desvio padr˜ao da popula¸c˜ao).
Um estimador natural de µ a ser usado ´e a m´edia amostral ¯x.
O Teorema Central do Limite (TCL) afirma: Se X1, X2,..., Xn ´e uma amostra aleat´oria sim-ples de uma popula¸c˜ao qualquer cuja m´edia ´e µ e variˆancia ´e σ2, a distribui¸c˜ao amostral de ¯X = 1
n
n
X
i=1
Xi, a m´edia amostral, se apro-xima de uma distribui¸c˜ao normal com m´edia µ e variˆancia σ
2
n quando n cresce.
Ou seja, para n suficientemente grande, ¯ X ∼ Na µ, σ 2 n ! ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1)
Situa¸c˜ao 1: Suponha uma popula¸c˜ao Uniforme em [0,5]: sua densidade ´e constante no in-tervalo dado. O valor esperado de uma po-pula¸c˜ao uniforme em [0,5] ´e 2,5 e a variˆancia ´e 25/12 ' 2, 08.
Agora vamos sortear 100 amostras aleat´orias de tamanho 2 e calcular as respectivas m´edias amostrais. A figura a seguir mostra um his-tograma dos 100 valores obtidos.
Os histogramas a seguir mostram os compor-tamentos da m´edia amostral para 100 amostras
Como ´e poss´ıvel perceber, a medida que au-mentamos o tamanho da amostra, a variabi-lidade dos valores da m´edia amostral se torna cada vez mais sim´etrica em torno de 2,5 (a m´edia da popula¸c˜ao) e que a variabilidade em torno da m´edia diminui.
Para amostras de popula¸c˜oes uniformes, consi-deram-se tamanhos amostrais moderados para usar o TCL. Para n = 15 a aproxima¸c˜ao j´a ´e boa. No entanto, se a distribui¸c˜ao popu-lacional for muito afastada de uma normal, por exemplo com forte assimetria positiva, ser´a necess´ario um tamanho amostral bem superior a 15 para que a aproxima¸c˜ao seja considerada boa.
Suponha uma popula¸c˜ao com o seguinte com-portamento.
Aqui foi escolhida uma popula¸c˜ao cuja m´edia ´e 0,04, mas que apresenta assimetria positiva.
Histogramas dos valores de ¯x para 200 amostras de tamanhos 5, 20, 30 e 40.
Mas como saber quando o tamanho amostral ´e adequado ou n˜ao para usar o TCL?
Vocˆe n˜ao precisar´a se preocupar com isso. Em geral, o uso do TCL ´e considerado adequado para amostras de tamanho maior ou igual a 30, independentemente da forma original da popula¸c˜ao.
O desvio padr˜ao da distribui¸c˜ao amostral da m´edia, igual a √σ
n, ´e chamado de erro padr˜ao
de ¯X. Ele fornece uma medida do grau com que as m´edias amostrais se desviam do valor esperado de sua distribui¸c˜ao (que coincide com a m´edia populacional µ).
Logo, podemos usar essa informa¸c˜ao para des-cobrir o qu˜ao precisa ´e a nossa estimativa da m´edia da popula¸c˜ao.
Vejamos um exemplo te´orico. Suponha que uma popula¸c˜ao, caracterizada por uma vari´avel aleat´oria X, tenha distribui¸c˜ao normal com m´ e-dia 10 e variˆancia 100.
X ∼ N ( 10 |{z} =µ , 100 | {z } =σ2 )
Aqui cabe comentar que no caso de popula¸c˜oes normais, n˜ao ´e necess´ario usar o TCL, pois a distribui¸c˜ao amostral de ¯X ´e, de fato, uma normal. Assim, temos ¯ X ∼ N µ, σn2 = N (10, 6.25).
Veja o gr´afico dessa distribui¸c˜ao (em vermelho destaca-se a distribui¸c˜ao da popula¸c˜ao).
Como ´e poss´ıvel ver a distribui¸c˜ao amostral da m´edia ´e muito mais concentrada em torno de seu valor esperado do que a distribui¸c˜ao da popula¸c˜ao.
Calcule, por exemplo, agora P (−5 < ¯X < 15) e compare com P (−5 < X < 15) Usando o R: P (−5 < X < 15) = pnorm(15, m´edia z}|{ 10 , desvio-padr˜ao z}|{ 10 )−pnorm(−5, 10, 10) ' 0.8664 P (−5 < ¯X < 15) = pnorm(15, 10, 2.5) − pnorm(−5, 10, 2.5) ' 1− A nota¸c˜ao 1− foi usada para indicar que a probabilidade ´e quase igual a 1, mas ´e menor que 1.
Vimos que entre ±1, 96 desvios da m´edia o gr´afico da distribui¸c˜ao normal compreende 95% dos valores. Qual deveria ser o tamanho da amostra se desej´assemos que em 95% das vezes a m´edia amostral ca´ısse entre 10 ± 2, isto ´e, entre 8 e 12? 0, 95 = P (8 < ¯X < 12) = P 8−10 10/√n < Z < 12−10 10/√n = = P −0, 2√n < Z < 0, 2√n = 2φ(0, 2√n) − 1 Logo, φ(0, 2√n) = 0, 975 e, usando a tabela da normal padr˜ao 0, 2√n = 1, 96.
√
n = 1, 96
0, 2 ↔ n = (9, 8)
2 ' 96.
Principais resultados da aula de hoje: Sejam
X uma popula¸c˜ao com m´edia µ e variˆancia σ2; X1, X2, ..., Xn uma amostra aleat´oria de tamanho n da popula¸c˜ao; ¯ X = 1n n X i=1 Xi a m´edia amostral.
Ent˜ao, o valor esperado, ou simplesmente a m´edia, da distribui¸c˜ao de ¯X ´e dado por
E[ ¯X] = µ e, a variˆancia, por Var( ¯X) = σ
2
n . σ
Se a popula¸c˜ao for normal, ¯
X ∼ N (µ, σ
2
n )
qualquer que seja n; ou equivalentemente, ¯
X − µ
σ/√n ∼ N (0, 1).
Se a popula¸c˜ao n˜ao for normal, segue, do TCL, que para n ≥ 30, ¯ X ∼ N (µ,a σ 2 n ) ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1).
Nos problemas reais o valor de σ tamb´em n˜ao ´e conhecido. Portanto, ser´a necess´ario, usando a amostra dispon´ıvel, estimar seu valor.
Observe que como o erro padr˜ao de ¯X σX¯ = √σ n
!
´e inversamente proporcional ao tamanho da amostra, isso significa que quanto maior for o tamanho amostral, menor ser´a a variabilidade das m´edias amostrais e, portanto, mais precisa ser´a a nossa estimativa da m´edia populacional. O mesmo deve ser esperado para estimativas do desvio padr˜ao populacional σ: quanto maior for a amostra, mais precisas ser˜ao as nossas estimativas.
Se X1, X2, ..., Xn ´e a amostra observada, esti-mamos a variˆancia da popula¸c˜ao σ2 pela va-riˆancia amostral S2 = 1
n
X
Assim, para amostras grandes n ≥ 30, se σ2 ´e desconhecido, usamos uma estimativa dada por s e aplicamos o TCL ¯ X − µ S/√n a ∼ N (0, 1) . com S estimador de σ.
Uma situa¸c˜ao que ocorre comumente ´e o caso de amostras de tamanhos moderados da dis-tribui¸c˜ao normal (n < 20), mas o desvio-padr˜ao n˜ao ´e conhecido.
Nesse caso, usa-se no lugar do desvio-padr˜ao populacional (σ) a sua estimativa amostral (S), mas a distribui¸c˜ao da estat´ıstica resultante n˜ao ´e mais normal.
Nesse caso usa-se distribui¸c˜ao t-de-Student com n−1 graus de liberdade para calcular os quantis apropriados.
Resumindo: Para amostras moderadas da distribui¸c˜ao normal com desvio-padr˜ao desconhecido, usamos como distribui¸c˜ao amostral da estat´ıstica X−µ¯
S/√n a distribui¸c˜ao t
com n − 1 graus de liberdade (parˆametro que caracteriza a distribui¸c˜ao).
A distribui¸c˜ao t, como a normal padr˜ao, tamb´em tem densidade sim´etrica em torno de zero, por´em apresenta
Quanto maior for o valor do parˆametro ν, a distribui¸c˜ao t(ν) se aproximar´a da distribui¸c˜ao normal padr˜ao.
Os dois gr´aficos a seguir ilustram as propriedades citadas da distribui¸c˜ao t.
Como obter probabilidades associadas a dis-tribui¸c˜ao t(ν)?
Da mesma forma que a normal padr˜ao, tamb´em est˜ao dispon´ıveis na maioria dos livros de es-tat´ıstica tabelas da distribui¸c˜ao t.
No R h´a as fun¸c˜oes: pt(x, df ), que retorna P (X ≤ x), para X vari´avel com distribui¸c˜ao t com df graus de liberdade,
qt(p, df ), que retorna o quantil de 100p% da distribui¸c˜ao t com df graus de liberdade, e
rt(n, df ) que gera n valores de uma t com df graus de liberdade.
Exemplo: Suponha que se deseja estimar o tempo m´edio para realizar uma tarefa. Para isso sorteou-se uma amostra aleat´oria de 16 oper´arios cujos tempos de realiza¸c˜ao da tarefa, em minutos, foram registrados.
82 102 91 90 87 107 83 78 88 101 99 76 67 87 99 88
Suponha que desejamos determinar um inter-valo sim´etrico em torno da verdadeira m´edia tal que a probabilidade da estat´ıstica T cair entre esses dois valores seja de 95%.
J´a resolvemos um problema similar a esse, mas no contexto da distribui¸c˜ao normal com variˆ an-cia conhecida e vimos que, depois de padronizar, P (−1, 96 < Z < 1, 96) = 0, 95. Observe que agora, apesar de considerarmos a normalidade dos dados, a variˆancia da popula¸c˜ao n˜ao ´e co-nhecida. Logo, usaremos a distribui¸c˜ao t com n − 1 = 16 − 1 = 15 graus de liberdade.
Aqui, a chave para solucionar esse problema ´e usar o resultado T = ¯ X − µ S/√15 ∼ t(15) 0, 95 = P (−δ < T < δ) = P (T < (δ) − P (T < −δ) = 2 × P (T (δ) − 1
Logo, P (T < δ) = 1,952 = 0, 975 tal que via R solicitamos qt(0.975, 15), que retorna o quantil 2.13145.
Assim, calculando o desvio-padr˜ao amoestral obtemos
x=c(82,102,91,90,87,107,83,78,88,101,99,76,67,87,99,88) sd(x) [1] 10.68
Logo, o intervalo ´e dado por 89.06 ± 2.13 × 10.68√