• Nenhum resultado encontrado

Estatística (MAD231) Turma: IGA. Período: 2015/2

N/A
N/A
Protected

Academic year: 2021

Share "Estatística (MAD231) Turma: IGA. Período: 2015/2"

Copied!
41
0
0

Texto

(1)

Estat´ıstica (MAD231) Turma: IGA

Per´ıodo: 2015/2

(2)

Inferˆencia Estat´ıstica: como fazer afirma¸c˜oes sobre uma popula¸c˜ao conhecendo uma amostra da popula¸c˜ao?

Referˆencia: Bussab e Morettin - Estat´ıstica B´asica - Editora Saraiva - Cap´ıtulo 10.

Introdu¸c˜ao

O uso de informa¸c˜oes de uma amostra para concluir sobre o todo faz parte da atividade di´aria da maioria das pessoas.

Observe como uma dona de casa verifica se o feij˜ao est´a bom de sal. Ou ainda, observe quando um cliente de supermercado, ap´os pro-var uma uva rosada na se¸c˜ao de horti-fruti, decide se vai comprar ou n˜ao dessas uvas.

(3)

Es-Conceitos Importantes

Popula¸c˜ao: ´e o conjunto de todos os elemen-tos sob investiga¸c˜ao com pelo menos uma ca-racter´ıstica em comum.

Amostra: ´e qualquer subconjunto n˜ao-vazio da popula¸c˜ao.

Parˆametro: Caracter´ıstica num´erica da po-pula¸c˜ao.

Estat´ıstica: Caracter´ıstica num´erica da amos-tra.

(4)

Observe que aqui o uso da palavra estat´ıstica tem outro significado.

Com o conceito que acabamos de apresentar podemos dizer que usamos estat´ısticas para es-timar parˆametros.

Um estimador de um parˆametro ´e uma es-tat´ıstica.

Uma quest˜ao importante na Inferˆencia Estat´ ısti-ca ´e: “Como avaliar um estimador?”

(5)

Problemas de Inferˆencia

• Verifica¸c˜ao do tempo de vida m´edio da lˆampada fluorescente especificado pelo fa-bricante. Essa verifica¸c˜ao pode fazer parte de

1. um procedimento de controle de qua-lidade da empresa - se o tempo m´edio de vida da amostra retirada de um lote de tais lˆampadas n˜ao atender `a especi-fica¸c˜ao estabelecida, ent˜ao todo o lote deve ser rejeitado;

2. um procedimento de um ´org˜ao de de-fesa do consumidor - se o tempo m´edio de vida de uma amostra de tais lˆampadas obtidas de diversos pontos de venda aten-der `a especifica¸c˜ao do fabricante, ent˜ao a reclama¸c˜ao dos consumidores n˜ao de-ver´a ser aceita.

(6)

• Avalia¸c˜ao de um novo produto. Antes do lan¸camento, o novo produto ser´a distribu´ ı-do a um grupo de consumiı-dores potenci-ais que responder˜ao um question´ario. Se os resultados dos question´arios mostrarem que o novo produto foi bem aceito, ent˜ao o grupo de marketing ter´a suporte para de-fender o lan¸camento do novo produto.

• Previs˜ao do tempo m´edio de espera dos clientes no caixa de um banco. Se o tempo m´edio de espera de uma amostra de clientes for maior que o tempo m´edio afirmado pelo gerente da agˆencia, ent˜ao ser´a bastante prov´avel que as reclama¸c˜oes dos clientes tenham fundamento.

(7)

• H´a raz˜oes para supor que o tempo de rea-¸

c˜ao Y a certo est´ımulo visual depende da idade do indiv´ıduo. Suponha que essa de-pendˆencia seja linear.

Para verificar se essa suposi¸c˜ao ´e verdadeira, obtiveram-se 20 dados da seguinte forma: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres. Dentro de cada grupo, de homens e mulheres, foram sele-cionadas duas pessoas das seguintes faixas de idade: 20, 25, 30, 35 e 40 anos.

Cada pessoa foi submetida ao teste e seu tempo de rea¸c˜ao y foi registrado.

A popula¸c˜ao poderia ser considerada como formada por todas aquelas pessoas que vies-sem a ser submetidas ao teste, segundo o sexo e a idade. A amostra ´e formada pelas 20 medidas de tempos de rea¸c˜ao.

(8)

• Previs˜ao da popula¸c˜ao brasileira por gˆenero e idade a fim de formular pol´ıticas p´ublicas para os pr´oximos 40 anos.

Existem diversos modelos de previs˜ao de tamanho de popula¸c˜ao. Diversos fatores interferem na dinˆamica da popula¸c˜ao. Na quinta-feira, dia 29 de agosto de 2013, o IBGE divulgou que no Brasil j´a s˜ao 201 milh˜oes de habitantes e tamb´em apresen-tou uma previs˜ao sobre a popula¸c˜ao por gˆenero e idade at´e 2060.

A popula¸c˜ao total projetada para o Brasil em 2013 foi de 201,0 milh˜oes de habitantes, atingindo 212,1 milh˜oes em 2020, at´e alcan¸car o m´aximo de 228,4 milh˜oes em 2042, quando come¸car´a a decrescer, atingindo o valor de 218,2 em 2060, n´ıvel equiva-lente ao projetado para 2025 (218,3 milh˜oes).

(9)

2

Como selecionar uma amostra?

As observa¸c˜oes contidas numa amostra s˜ao tanto mais informativas sobre a popula¸c˜ao, quan-to mais conhecimenquan-to tivermos dessa mesma popula¸c˜ao.

Por exemplo a an´alise quantitativa de gl´obulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente d´a a ideia geral da quantidade de gl´obulos brancos no corpo todo, pois sabe-se que a distribui¸c˜ao dos gl´obulos brancos ´e homogˆenea, e de qualquer lugar que se tivesse retirado a amostra ela seria “representativa”.

Nem sempre a escolha de uma amostra ade-quada ´e imediata.

(10)

Procedimentos de levantamento de dados (Bussab & Morettin)

1. Levantamentos Amostrais - a amostra ´e obtida de uma popula¸c˜ao bem definida, por meio de processos bem protocolados e contro-lados pelo pesquisador.

Tais levantamentos costumam ser subdividi-dos em dois subgrupos: probabil´ısticose n˜ ao-probabil´ısticos. O primeiro re´une todas as t´ecnicas que usam mecanismos aleat´orios de sele¸c˜ao dos elementos de uma amostra, atri-buindo a cada um deles, uma probabilidade, conhecida a priori, de pertencer `a amostra.

(11)

No segundo grupo est˜ao os demais procedi-mentos, tais como amostras intencionais, nas quais os elementos s˜ao selecionados com o aux´ılio de especialistas, e amostras de volunt´ a-rios, como ocorre em alguns testes sobre novos medicamentos e vacinas.

A grande vantagem dos procedimentos proba-bil´ısticos ´e poder medir a precis˜ao da amostra obtida.

2. Planejamento de Experimentos. Tˆem como principal objetivo analisar o efeito de uma vari´ a-vel sobre outra(s). Requer interferˆencias do pesquisador sobre o ambiente em estudo (po-pula¸c˜ao), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.

Exemplo: A altura de um produto na gˆondola de um supermercado afeta as vendas do pro-duto? Se sim, como?

(12)

3. Levantamentos Observacionais. Os da-dos s˜ao coletados sem que o pesquisador te-nha controle sobre as informa¸c˜oes obtidas, ex-ceto eventualmente sobre poss´ıveis erros gros-seiros. As s´eries de dados temporais s˜ao e-xemplos t´ıpicos desses levantamentos.

Exemplo: suponha o problema de prever as vendas futuras numa empresa em fun¸c˜ao das vendas passadas. O pesquisador n˜ao pode se-lecionar dados, esses s˜ao as vendas efetiva-mente ocorridas.

Observe que aqui tamb´em se encaixa o pro-blema de proje¸c˜oes de tamanhos populacionais.

(13)

Amostra Aleat´oria Simples(AAS)

Uma amostra aleat´oria simples ocorre quando atribu´ımos probabilidades de sele¸c˜ao na amos-tra iguais para todos os elementos da popula-¸

c˜ao.

Com rela¸c˜ao `a precis˜ao neste tipo de amostra-gem existe diferen¸ca se a sele¸c˜ao ´e feita com reposi¸c˜ao ou sem reposi¸c˜ao.

No entanto, quando o tamanho da amostra for muito inferior ao tamanho da popula¸c˜ao (menor que 5% da popula¸c˜ao) a sele¸c˜ao sem reposi¸c˜ao comporta-se, de modo aproximado, como uma sele¸c˜ao com reposi¸c˜ao, e nesse caso costuma-se tratar o problema como se fosse com reposi¸c˜ao.

(14)

Distribui¸c˜ao Amostral

No in´ıcio da aula falamos em usar estat´ısticas para estimar um parˆametro.

Na pr´atica s´o podemos obter uma amostra da popula¸c˜ao e, com base nela, tirar conclus˜oes sobre a popula¸c˜ao.

Como poderemos fazer afirma¸c˜oes sobre a qua-lidade das nossas conclus˜oes? Como podere-mos falar sobre o erro decorrente da variabili-dade amostral?

A resposta a essas perguntas envolve o con-ceito de distribui¸c˜ao amostral.

(15)

Suponha o problema de estimar um parˆametro θ de certa popula¸c˜ao e que para isso dismos de uma adismostra de tamanho n dessa po-pula¸c˜ao: x1, x2, ..., xn. Suponha tamb´em que usaremos uma estat´ıstica T fun¸c˜ao da amostra para estimar θ.

T = t(x1, x2, ..., xn)

T pode ser a soma (

n

X

i=1

xi), a m´edia (¯x), a me-diana, a amplitude, o desvio padr˜ao amostral, e sua escolha depender´a do parˆametro que que-remos estimar.

Para poder avaliar a qualidade de T como esti-mador de θ ´e fundamental conhecer o modelo probabil´ısitco que explica a variabilidadde de seus valores, ou seja, a distribui¸c˜ao amostral de T .

(16)

A figura a seguir ilustra como poder´ıamos ficticiamente obter essa distribui¸c˜ao.

(17)

Mas como poderemos pelo menos fazer um histograma de valores da estat´ıstica se s´o dis-pomos de uma amostra?

O Teorema Central do Limite da Teoria das Probabilidades ´e uma pe¸ca chave para resolver esse problema.

Vamos simplificar o problema de estima¸c˜ao de um parˆametro gen´erico θ para um problema espec´ıfico de estima¸c˜ao da m´edia populacional, µ.

Para isso dispomos de uma amostra aleat´oria de tamanho n da popula¸c˜ao cujos valores ob-servados s˜ao x1, x2, ..., xn.

No que segue usaremos: µ para a m´edia da popula¸c˜ao e

σ2 para a variˆancia da popula¸c˜ao (σ - desvio padr˜ao da popula¸c˜ao).

Um estimador natural de µ a ser usado ´e a m´edia amostral ¯x.

(18)

O Teorema Central do Limite (TCL) afirma: Se X1, X2,..., Xn ´e uma amostra aleat´oria sim-ples de uma popula¸c˜ao qualquer cuja m´edia ´e µ e variˆancia ´e σ2, a distribui¸c˜ao amostral de ¯X = 1

n

n

X

i=1

Xi, a m´edia amostral, se apro-xima de uma distribui¸c˜ao normal com m´edia µ e variˆancia σ

2

n quando n cresce.

Ou seja, para n suficientemente grande, ¯ X ∼ Na µ, σ 2 n ! ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1)

(19)

Situa¸c˜ao 1: Suponha uma popula¸c˜ao Uniforme em [0,5]: sua densidade ´e constante no in-tervalo dado. O valor esperado de uma po-pula¸c˜ao uniforme em [0,5] ´e 2,5 e a variˆancia ´e 25/12 ' 2, 08.

Agora vamos sortear 100 amostras aleat´orias de tamanho 2 e calcular as respectivas m´edias amostrais. A figura a seguir mostra um his-tograma dos 100 valores obtidos.

(20)

Os histogramas a seguir mostram os compor-tamentos da m´edia amostral para 100 amostras

(21)
(22)

Como ´e poss´ıvel perceber, a medida que au-mentamos o tamanho da amostra, a variabi-lidade dos valores da m´edia amostral se torna cada vez mais sim´etrica em torno de 2,5 (a m´edia da popula¸c˜ao) e que a variabilidade em torno da m´edia diminui.

Para amostras de popula¸c˜oes uniformes, consi-deram-se tamanhos amostrais moderados para usar o TCL. Para n = 15 a aproxima¸c˜ao j´a ´e boa. No entanto, se a distribui¸c˜ao popu-lacional for muito afastada de uma normal, por exemplo com forte assimetria positiva, ser´a necess´ario um tamanho amostral bem superior a 15 para que a aproxima¸c˜ao seja considerada boa.

(23)

Suponha uma popula¸c˜ao com o seguinte com-portamento.

Aqui foi escolhida uma popula¸c˜ao cuja m´edia ´e 0,04, mas que apresenta assimetria positiva.

(24)

Histogramas dos valores de ¯x para 200 amostras de tamanhos 5, 20, 30 e 40.

(25)

Mas como saber quando o tamanho amostral ´e adequado ou n˜ao para usar o TCL?

Vocˆe n˜ao precisar´a se preocupar com isso. Em geral, o uso do TCL ´e considerado adequado para amostras de tamanho maior ou igual a 30, independentemente da forma original da popula¸c˜ao.

O desvio padr˜ao da distribui¸c˜ao amostral da m´edia, igual a √σ

n, ´e chamado de erro padr˜ao

de ¯X. Ele fornece uma medida do grau com que as m´edias amostrais se desviam do valor esperado de sua distribui¸c˜ao (que coincide com a m´edia populacional µ).

Logo, podemos usar essa informa¸c˜ao para des-cobrir o qu˜ao precisa ´e a nossa estimativa da m´edia da popula¸c˜ao.

(26)

Vejamos um exemplo te´orico. Suponha que uma popula¸c˜ao, caracterizada por uma vari´avel aleat´oria X, tenha distribui¸c˜ao normal com m´ e-dia 10 e variˆancia 100.

X ∼ N ( 10 |{z} =µ , 100 | {z } =σ2 )

(27)

Aqui cabe comentar que no caso de popula¸c˜oes normais, n˜ao ´e necess´ario usar o TCL, pois a distribui¸c˜ao amostral de ¯X ´e, de fato, uma normal. Assim, temos ¯ X ∼ N  µ, σn2  = N (10, 6.25).

Veja o gr´afico dessa distribui¸c˜ao (em vermelho destaca-se a distribui¸c˜ao da popula¸c˜ao).

(28)

Como ´e poss´ıvel ver a distribui¸c˜ao amostral da m´edia ´e muito mais concentrada em torno de seu valor esperado do que a distribui¸c˜ao da popula¸c˜ao.

Calcule, por exemplo, agora P (−5 < ¯X < 15) e compare com P (−5 < X < 15) Usando o R: P (−5 < X < 15) = pnorm(15, m´edia z}|{ 10 , desvio-padr˜ao z}|{ 10 )−pnorm(−5, 10, 10) ' 0.8664 P (−5 < ¯X < 15) = pnorm(15, 10, 2.5) − pnorm(−5, 10, 2.5) ' 1− A nota¸c˜ao 1− foi usada para indicar que a probabilidade ´e quase igual a 1, mas ´e menor que 1.

(29)

Vimos que entre ±1, 96 desvios da m´edia o gr´afico da distribui¸c˜ao normal compreende 95% dos valores. Qual deveria ser o tamanho da amostra se desej´assemos que em 95% das vezes a m´edia amostral ca´ısse entre 10 ± 2, isto ´e, entre 8 e 12? 0, 95 = P (8 < ¯X < 12) = P  8−10 10/√n < Z < 12−10 10/√n  = = P −0, 2√n < Z < 0, 2√n = 2φ(0, 2√n) − 1 Logo, φ(0, 2√n) = 0, 975 e, usando a tabela da normal padr˜ao 0, 2√n = 1, 96.

n = 1, 96

0, 2 ↔ n = (9, 8)

2 ' 96.

(30)

Principais resultados da aula de hoje: Sejam

X uma popula¸c˜ao com m´edia µ e variˆancia σ2; X1, X2, ..., Xn uma amostra aleat´oria de tamanho n da popula¸c˜ao; ¯ X = 1n n X i=1 Xi a m´edia amostral.

Ent˜ao, o valor esperado, ou simplesmente a m´edia, da distribui¸c˜ao de ¯X ´e dado por

E[ ¯X] = µ e, a variˆancia, por Var( ¯X) = σ

2

n . σ

(31)

Se a popula¸c˜ao for normal, ¯

X ∼ N (µ, σ

2

n )

qualquer que seja n; ou equivalentemente, ¯

X − µ

σ/√n ∼ N (0, 1).

Se a popula¸c˜ao n˜ao for normal, segue, do TCL, que para n ≥ 30, ¯ X ∼ N (µ,a σ 2 n ) ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1).

(32)

Nos problemas reais o valor de σ tamb´em n˜ao ´e conhecido. Portanto, ser´a necess´ario, usando a amostra dispon´ıvel, estimar seu valor.

Observe que como o erro padr˜ao de ¯X σX¯ = √σ n

!

´e inversamente proporcional ao tamanho da amostra, isso significa que quanto maior for o tamanho amostral, menor ser´a a variabilidade das m´edias amostrais e, portanto, mais precisa ser´a a nossa estimativa da m´edia populacional. O mesmo deve ser esperado para estimativas do desvio padr˜ao populacional σ: quanto maior for a amostra, mais precisas ser˜ao as nossas estimativas.

Se X1, X2, ..., Xn ´e a amostra observada, esti-mamos a variˆancia da popula¸c˜ao σ2 pela va-riˆancia amostral S2 = 1

n

X

(33)

Assim, para amostras grandes n ≥ 30, se σ2 ´e desconhecido, usamos uma estimativa dada por s e aplicamos o TCL ¯ X − µ S/√n a ∼ N (0, 1) . com S estimador de σ.

(34)

Uma situa¸c˜ao que ocorre comumente ´e o caso de amostras de tamanhos moderados da dis-tribui¸c˜ao normal (n < 20), mas o desvio-padr˜ao n˜ao ´e conhecido.

Nesse caso, usa-se no lugar do desvio-padr˜ao populacional (σ) a sua estimativa amostral (S), mas a distribui¸c˜ao da estat´ıstica resultante n˜ao ´e mais normal.

Nesse caso usa-se distribui¸c˜ao t-de-Student com n−1 graus de liberdade para calcular os quantis apropriados.

Resumindo: Para amostras moderadas da distribui¸c˜ao normal com desvio-padr˜ao desconhecido, usamos como distribui¸c˜ao amostral da estat´ıstica X−µ¯

S/√n a distribui¸c˜ao t

com n − 1 graus de liberdade (parˆametro que caracteriza a distribui¸c˜ao).

A distribui¸c˜ao t, como a normal padr˜ao, tamb´em tem densidade sim´etrica em torno de zero, por´em apresenta

(35)

Quanto maior for o valor do parˆametro ν, a distribui¸c˜ao t(ν) se aproximar´a da distribui¸c˜ao normal padr˜ao.

Os dois gr´aficos a seguir ilustram as propriedades citadas da distribui¸c˜ao t.

(36)
(37)

Como obter probabilidades associadas a dis-tribui¸c˜ao t(ν)?

Da mesma forma que a normal padr˜ao, tamb´em est˜ao dispon´ıveis na maioria dos livros de es-tat´ıstica tabelas da distribui¸c˜ao t.

No R h´a as fun¸c˜oes: pt(x, df ), que retorna P (X ≤ x), para X vari´avel com distribui¸c˜ao t com df graus de liberdade,

qt(p, df ), que retorna o quantil de 100p% da distribui¸c˜ao t com df graus de liberdade, e

rt(n, df ) que gera n valores de uma t com df graus de liberdade.

(38)
(39)

Exemplo: Suponha que se deseja estimar o tempo m´edio para realizar uma tarefa. Para isso sorteou-se uma amostra aleat´oria de 16 oper´arios cujos tempos de realiza¸c˜ao da tarefa, em minutos, foram registrados.

82 102 91 90 87 107 83 78 88 101 99 76 67 87 99 88

Suponha que desejamos determinar um inter-valo sim´etrico em torno da verdadeira m´edia tal que a probabilidade da estat´ıstica T cair entre esses dois valores seja de 95%.

J´a resolvemos um problema similar a esse, mas no contexto da distribui¸c˜ao normal com variˆ an-cia conhecida e vimos que, depois de padronizar, P (−1, 96 < Z < 1, 96) = 0, 95. Observe que agora, apesar de considerarmos a normalidade dos dados, a variˆancia da popula¸c˜ao n˜ao ´e co-nhecida. Logo, usaremos a distribui¸c˜ao t com n − 1 = 16 − 1 = 15 graus de liberdade.

(40)

Aqui, a chave para solucionar esse problema ´e usar o resultado T = ¯ X − µ S/√15 ∼ t(15) 0, 95 = P (−δ < T < δ) = P (T < (δ) − P (T < −δ) = 2 × P (T (δ) − 1

Logo, P (T < δ) = 1,952 = 0, 975 tal que via R solicitamos qt(0.975, 15), que retorna o quantil 2.13145.

Assim, calculando o desvio-padr˜ao amoestral obtemos

x=c(82,102,91,90,87,107,83,78,88,101,99,76,67,87,99,88) sd(x) [1] 10.68

(41)

Logo, o intervalo ´e dado por 89.06 ± 2.13 × 10.68√

Referências

Documentos relacionados

Estat´ıstico, dentro de uma determinada margem de erro, pode ser adotado como parˆametro da popula¸c˜ao da qual a amostra foi retirada.... Exemplo:

Agenda Bibliografia Operadores Referˆ encias Opera¸ c˜ oes com conjuntos de c´ elulas Tratamento de erros Exerc´ıcios Exerc´ıcios (5) Calcule:. Total de receita bruta no ano: soma

No entanto, regras adicionais de inferˆ encia, que est˜ ao fora do nosso objetivo, s˜ ao necess´ arias para provar afirma¸ c˜ oes envolvendo predicados e quantificadores.. J´ a

Quest˜ oes metodol´ogicas: vasto campo para cross-fertiliza¸c˜ao; interesses especiais em metodologias de estat´ıstica espacial; em particular formas de combinar modelos f´ısicos