Estatística (MAD231) Turma: IGA. Período: 2015/2

(1)

Estat´ıstica (MAD231) Turma: IGA

Per´ıodo: 2015/2

(2)

Inferência Estat´ıstica: como fazer afirma¸cões sobre uma popula¸cão conhecendo uma amostra da popula¸cão?

Referˆencia: Bussab e Morettin - Estat´ıstica B´asica - Editora Saraiva - Cap´ıtulo 10.

Introdu¸c˜ao

O uso de informa¸c˜oes de uma amostra para concluir sobre o todo faz parte da atividade di´aria da maioria das pessoas.

Observe como uma dona de casa verifica se o feijão está bom de sal. Ou ainda, observe quando um cliente de supermercado, após pro-var uma uva rosada na se¸cão de horti-fruti, decide se vai comprar ou não dessas uvas.

(3)

Es-Conceitos Importantes

Popula¸cão: é o conjunto de todos os elemen-tos sob investiga¸cão com pelo menos uma ca-racter´ıstica em comum.

Amostra: é qualquer subconjunto não-vazio da popula¸cão.

Parâmetro: Caracter´ıstica numérica da po-pula¸cão.

Estat´ıstica: Caracter´ıstica num´erica da amos-tra.

(4)

Observe que aqui o uso da palavra estat´ıstica tem outro significado.

Com o conceito que acabamos de apresentar podemos dizer que usamos estat´ısticas para es-timar parˆametros.

Um estimador de um parˆametro ´e uma es-tat´ıstica.

Uma questão importante na Inferência Estat´ ısti-ca é: “Como avaliar um estimador?”

(5)

Problemas de Inferˆencia

• Verifica¸cão do tempo de vida médio da lâmpada fluorescente especificado pelo fa-bricante. Essa verifica¸cão pode fazer parte de

1. um procedimento de controle de qua-lidade da empresa - se o tempo médio de vida da amostra retirada de um lote de tais lâmpadas não atender à especi-fica¸cão estabelecida, então todo o lote deve ser rejeitado;

2. um procedimento de um órgão de de-fesa do consumidor - se o tempo médio de vida de uma amostra de tais lâmpadas obtidas de diversos pontos de venda aten-der à especifica¸cão do fabricante, então a reclama¸cão dos consumidores não de-verá ser aceita.

(6)

• Avalia¸cão de um novo produto. Antes do lan¸camento, o novo produto será distribu´ ı-do a um grupo de consumiı-dores potenci-ais que responderão um questionário. Se os resultados dos questionários mostrarem que o novo produto foi bem aceito, então o grupo de marketing terá suporte para de-fender o lan¸camento do novo produto.

• Previsão do tempo médio de espera dos clientes no caixa de um banco. Se o tempo médio de espera de uma amostra de clientes for maior que o tempo médio afirmado pelo gerente da agência, então será bastante provável que as reclama¸cões dos clientes tenham fundamento.

(7)

• H´a raz˜oes para supor que o tempo de rea-¸

c˜ao Y a certo est´ımulo visual depende da idade do indiv´ıduo. Suponha que essa de-pendˆencia seja linear.

Para verificar se essa suposi¸c˜ao ´e verdadeira, obtiveram-se 20 dados da seguinte forma: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres. Dentro de cada grupo, de homens e mulheres, foram sele-cionadas duas pessoas das seguintes faixas de idade: 20, 25, 30, 35 e 40 anos.

Cada pessoa foi submetida ao teste e seu tempo de rea¸c˜ao y foi registrado.

A popula¸cão poderia ser considerada como formada por todas aquelas pessoas que vies-sem a ser submetidas ao teste, segundo o sexo e a idade. A amostra é formada pelas 20 medidas de tempos de rea¸cão.

(8)

• Previsão da popula¸cão brasileira por gênero e idade a fim de formular pol´ıticas públicas para os próximos 40 anos.

Existem diversos modelos de previsão de tamanho de popula¸cão. Diversos fatores interferem na dinâmica da popula¸cão. Na quinta-feira, dia 29 de agosto de 2013, o IBGE divulgou que no Brasil já são 201 milhões de habitantes e também apresen-tou uma previsão sobre a popula¸cão por gênero e idade até 2060.

A popula¸cão total projetada para o Brasil em 2013 foi de 201,0 milhões de habitantes, atingindo 212,1 milhões em 2020, até alcan¸car o máximo de 228,4 milhões em 2042, quando come¸cará a decrescer, atingindo o valor de 218,2 em 2060, n´ıvel equiva-lente ao projetado para 2025 (218,3 milhões).

(9)

2

Como selecionar uma amostra?

As observa¸cões contidas numa amostra são tanto mais informativas sobre a popula¸cão, quan-to mais conhecimenquan-to tivermos dessa mesma popula¸cão.

Por exemplo a análise quantitativa de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dá a ideia geral da quantidade de glóbulos brancos no corpo todo, pois sabe-se que a distribui¸cão dos glóbulos brancos é homogênea, e de qualquer lugar que se tivesse retirado a amostra ela seria “representativa”.

Nem sempre a escolha de uma amostra ade-quada ´e imediata.

(10)

Procedimentos de levantamento de dados (Bussab & Morettin)

1. Levantamentos Amostrais - a amostra ´e obtida de uma popula¸c˜ao bem definida, por meio de processos bem protocolados e contro-lados pelo pesquisador.

Tais levantamentos costumam ser subdividi-dos em dois subgrupos: probabil´ısticose n˜ ao-probabil´ısticos. O primeiro reúne todas as técnicas que usam mecanismos aleatórios de sele¸cão dos elementos de uma amostra, atri-buindo a cada um deles, uma probabilidade, conhecida a priori, de pertencer à amostra.

(11)

No segundo grupo est˜ao os demais procedi-mentos, tais como amostras intencionais, nas quais os elementos s˜ao selecionados com o aux´ılio de especialistas, e amostras de volunt´ a-rios, como ocorre em alguns testes sobre novos medicamentos e vacinas.

A grande vantagem dos procedimentos proba-bil´ısticos ´e poder medir a precis˜ao da amostra obtida.

2. Planejamento de Experimentos. Têm como principal objetivo analisar o efeito de uma vari´ a-vel sobre outra(s). Requer interferências do pesquisador sobre o ambiente em estudo (po-pula¸cão), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.

Exemplo: A altura de um produto na gˆondola de um supermercado afeta as vendas do pro-duto? Se sim, como?

(12)

3. Levantamentos Observacionais. Os da-dos são coletados sem que o pesquisador te-nha controle sobre as informa¸cões obtidas, ex-ceto eventualmente sobre poss´ıveis erros gros-seiros. As séries de dados temporais são e-xemplos t´ıpicos desses levantamentos.

Exemplo: suponha o problema de prever as vendas futuras numa empresa em fun¸cão das vendas passadas. O pesquisador não pode se-lecionar dados, esses são as vendas efetiva-mente ocorridas.

Observe que aqui tamb´em se encaixa o pro-blema de proje¸c˜oes de tamanhos populacionais.

(13)

Amostra Aleat´oria Simples(AAS)

Uma amostra aleat´oria simples ocorre quando atribu´ımos probabilidades de sele¸c˜ao na amos-tra iguais para todos os elementos da popula-¸

c˜ao.

Com rela¸cão à precisão neste tipo de amostra-gem existe diferen¸ca se a sele¸cão é feita com reposi¸cão ou sem reposi¸cão.

No entanto, quando o tamanho da amostra for muito inferior ao tamanho da popula¸cão (menor que 5% da popula¸cão) a sele¸cão sem reposi¸cão comporta-se, de modo aproximado, como uma sele¸cão com reposi¸cão, e nesse caso costuma-se tratar o problema como se fosse com reposi¸cão.

(14)

Distribui¸c˜ao Amostral

No in´ıcio da aula falamos em usar estat´ısticas para estimar um parˆametro.

Na prática só podemos obter uma amostra da popula¸cão e, com base nela, tirar conclusões sobre a popula¸cão.

Como poderemos fazer afirma¸c˜oes sobre a qua-lidade das nossas conclus˜oes? Como podere-mos falar sobre o erro decorrente da variabili-dade amostral?

A resposta a essas perguntas envolve o con-ceito de distribui¸c˜ao amostral.

(15)

Suponha o problema de estimar um parâmetro θ de certa popula¸cão e que para isso dismos de uma adismostra de tamanho n dessa po-pula¸cão: x₁, x₂, ..., x_n. Suponha também que usaremos uma estat´ıstica T fun¸cão da amostra para estimar θ.

T = t(x₁, x₂, ..., x_n)

T pode ser a soma (

n

X

i=1

x_i), a média (¯x), a me-diana, a amplitude, o desvio padrão amostral, e sua escolha dependerá do parâmetro que que-remos estimar.

Para poder avaliar a qualidade de T como esti-mador de θ ´e fundamental conhecer o modelo probabil´ısitco que explica a variabilidadde de seus valores, ou seja, a distribui¸c˜ao amostral de T .

(16)

A figura a seguir ilustra como poder´ıamos ficticiamente obter essa distribui¸c˜ao.

(17)

Mas como poderemos pelo menos fazer um histograma de valores da estat´ıstica se s´o dis-pomos de uma amostra?

O Teorema Central do Limite da Teoria das Probabilidades ´e uma pe¸ca chave para resolver esse problema.

Vamos simplificar o problema de estima¸cão de um parâmetro genérico θ para um problema espec´ıfico de estima¸cão da média populacional, µ.

Para isso dispomos de uma amostra aleatória de tamanho n da popula¸cão cujos valores ob-servados são x₁, x₂, ..., x_n.

No que segue usaremos: µ para a m´edia da popula¸c˜ao e

σ2 para a variância da popula¸cão (σ - desvio padrão da popula¸cão).

Um estimador natural de µ a ser usado ´e a m´edia amostral ¯x.

(18)

O Teorema Central do Limite (TCL) afirma: Se X₁, X₂,..., X_n é uma amostra aleatória sim-ples de uma popula¸cão qualquer cuja média é µ e variância é σ2, a distribui¸cão amostral de ¯X = 1

n

X

i=1

X_i, a média amostral, se apro-xima de uma distribui¸cão normal com média µ e variância σ

2

n quando n cresce.

Ou seja, para n suficientemente grande, ¯ X ∼ Na µ, σ 2 n ! ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1)

(19)

Situa¸cão 1: Suponha uma popula¸cão Uniforme em [0,5]: sua densidade é constante no in-tervalo dado. O valor esperado de uma po-pula¸cão uniforme em [0,5] é 2,5 e a variância é 25/12 ' 2, 08.

Agora vamos sortear 100 amostras aleat´orias de tamanho 2 e calcular as respectivas m´edias amostrais. A figura a seguir mostra um his-tograma dos 100 valores obtidos.

(20)

Os histogramas a seguir mostram os compor-tamentos da m´edia amostral para 100 amostras

(21)

(22)

Como é poss´ıvel perceber, a medida que au-mentamos o tamanho da amostra, a variabi-lidade dos valores da média amostral se torna cada vez mais simétrica em torno de 2,5 (a média da popula¸cão) e que a variabilidade em torno da média diminui.

Para amostras de popula¸cões uniformes, consi-deram-se tamanhos amostrais moderados para usar o TCL. Para n = 15 a aproxima¸cão já é boa. No entanto, se a distribui¸cão popu-lacional for muito afastada de uma normal, por exemplo com forte assimetria positiva, será necessário um tamanho amostral bem superior a 15 para que a aproxima¸cão seja considerada boa.

(23)

Suponha uma popula¸c˜ao com o seguinte com-portamento.

Aqui foi escolhida uma popula¸cão cuja média é 0,04, mas que apresenta assimetria positiva.

(24)

Histogramas dos valores de ¯x para 200 amostras de tamanhos 5, 20, 30 e 40.

(25)

Mas como saber quando o tamanho amostral ´e adequado ou n˜ao para usar o TCL?

Você não precisará se preocupar com isso. Em geral, o uso do TCL é considerado adequado para amostras de tamanho maior ou igual a 30, independentemente da forma original da popula¸cão.

O desvio padrão da distribui¸cão amostral da média, igual a √σ

n, ´e chamado de erro padr˜ao

de ¯X. Ele fornece uma medida do grau com que as médias amostrais se desviam do valor esperado de sua distribui¸cão (que coincide com a média populacional µ).

Logo, podemos usar essa informa¸cão para des-cobrir o quão precisa é a nossa estimativa da média da popula¸cão.

(26)

Vejamos um exemplo teórico. Suponha que uma popula¸cão, caracterizada por uma variável aleatória X, tenha distribui¸cão normal com m´ e-dia 10 e variância 100.

X ∼ N ( 10 |{z} =µ , 100 | {z } =σ2 )

(27)

Aqui cabe comentar que no caso de popula¸cões normais, não é necessário usar o TCL, pois a distribui¸cão amostral de ¯X é, de fato, uma normal. Assim, temos ¯ X ∼ N µ, σ_n2 = N (10, 6.25).

Veja o gráfico dessa distribui¸cão (em vermelho destaca-se a distribui¸cão da popula¸cão).

(28)

Como é poss´ıvel ver a distribui¸cão amostral da média é muito mais concentrada em torno de seu valor esperado do que a distribui¸cão da popula¸cão.

Calcule, por exemplo, agora P (−5 < ¯X < 15) e compare com P (−5 < X < 15) Usando o R: P (−5 < X < 15) = pnorm(15, média z}|{ 10 , desvio-padrão z}|{ 10 )−pnorm(−5, 10, 10) ' 0.8664 P (−5 < ¯X < 15) = pnorm(15, 10, 2.5) − pnorm(−5, 10, 2.5) ' 1− A nota¸cão 1− foi usada para indicar que a probabilidade é quase igual a 1, mas é menor que 1.

(29)

Vimos que entre ±1, 96 desvios da média o gráfico da distribui¸cão normal compreende 95% dos valores. Qual deveria ser o tamanho da amostra se desejássemos que em 95% das vezes a média amostral ca´ısse entre 10 ± 2, isto é, entre 8 e 12? 0, 95 = P (8 < ¯X < 12) = P 8−10 10/√n < Z < 12−10 10/√n = = P −0, 2√n < Z < 0, 2√n = 2φ(0, 2√n) − 1 Logo, φ(0, 2√n) = 0, 975 e, usando a tabela da normal padrão 0, 2√n = 1, 96.

√

n = 1, 96

0, 2 ↔ n = (9, 8)

2 _{' 96.}

(30)

Principais resultados da aula de hoje: Sejam

X uma popula¸cão com média µ e variância σ2; X₁, X₂, ..., X_n uma amostra aleatória de tamanho n da popula¸cão; ¯ X = 1_n n X i=1 X_i a média amostral.

Então, o valor esperado, ou simplesmente a média, da distribui¸cão de ¯X é dado por

E[ ¯X] = µ e, a variˆancia, por Var( ¯X) = σ

2

n . σ

(31)

Se a popula¸c˜ao for normal, ¯

X ∼ N (µ, σ

2

n )

qualquer que seja n; ou equivalentemente, ¯

X − µ

σ/√n ∼ N (0, 1).

Se a popula¸c˜ao n˜ao for normal, segue, do TCL, que para n ≥ 30, ¯ X ∼ N (µ,a σ 2 n ) ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1).

(32)

Nos problemas reais o valor de σ também não é conhecido. Portanto, será necessário, usando a amostra dispon´ıvel, estimar seu valor.

Observe que como o erro padr˜ao de ¯X σ_X_¯ = √σ n

!

é inversamente proporcional ao tamanho da amostra, isso significa que quanto maior for o tamanho amostral, menor será a variabilidade das médias amostrais e, portanto, mais precisa será a nossa estimativa da média populacional. O mesmo deve ser esperado para estimativas do desvio padrão populacional σ: quanto maior for a amostra, mais precisas serão as nossas estimativas.

Se X₁, X₂, ..., X_n é a amostra observada, esti-mamos a variância da popula¸cão σ2 pela va-riância amostral S2 = 1

n

X

(33)

Assim, para amostras grandes n ≥ 30, se σ2 ´e desconhecido, usamos uma estimativa dada por s e aplicamos o TCL ¯ X − µ S/√n a ∼ N (0, 1) . com S estimador de σ.

(34)

Uma situa¸cão que ocorre comumente é o caso de amostras de tamanhos moderados da dis-tribui¸cão normal (n < 20), mas o desvio-padrão não é conhecido.

Nesse caso, usa-se no lugar do desvio-padrão populacional (σ) a sua estimativa amostral (S), mas a distribui¸cão da estat´ıstica resultante não é mais normal.

Nesse caso usa-se distribui¸c˜ao t-de-Student com n−1 graus de liberdade para calcular os quantis apropriados.

Resumindo: Para amostras moderadas da distribui¸cão normal com desvio-padrão desconhecido, usamos como distribui¸cão amostral da estat´ıstica X−µ¯

S/√n a distribui¸c˜ao t

com n − 1 graus de liberdade (parˆametro que caracteriza a distribui¸c˜ao).

A distribui¸cão t, como a normal padrão, também tem densidade simétrica em torno de zero, porém apresenta

(35)

Quanto maior for o valor do parâmetro ν, a distribui¸cão t_(ν) se aproximará da distribui¸cão normal padrão.

Os dois gr´aficos a seguir ilustram as propriedades citadas da distribui¸c˜ao t.

(36)

(37)

Como obter probabilidades associadas a dis-tribui¸c˜ao t_(ν)?

Da mesma forma que a normal padrão, também estão dispon´ıveis na maioria dos livros de es-tat´ıstica tabelas da distribui¸cão t.

No R há as fun¸cões: pt(x, df ), que retorna P (X ≤ x), para X variável com distribui¸cão t com df graus de liberdade,

qt(p, df ), que retorna o quantil de 100p% da distribui¸c˜ao t com df graus de liberdade, e

rt(n, df ) que gera n valores de uma t com df graus de liberdade.

(38)

(39)

Exemplo: Suponha que se deseja estimar o tempo médio para realizar uma tarefa. Para isso sorteou-se uma amostra aleatória de 16 operários cujos tempos de realiza¸cão da tarefa, em minutos, foram registrados.

82 102 91 90 87 107 83 78 88 101 99 76 67 87 99 88

Suponha que desejamos determinar um inter-valo sim´etrico em torno da verdadeira m´edia tal que a probabilidade da estat´ıstica T cair entre esses dois valores seja de 95%.

Já resolvemos um problema similar a esse, mas no contexto da distribui¸cão normal com variˆ an-cia conhecida e vimos que, depois de padronizar, P (−1, 96 < Z < 1, 96) = 0, 95. Observe que agora, apesar de considerarmos a normalidade dos dados, a variância da popula¸cão não é co-nhecida. Logo, usaremos a distribui¸cão t com n − 1 = 16 − 1 = 15 graus de liberdade.

(40)

Aqui, a chave para solucionar esse problema ´e usar o resultado T = ¯ X − µ S/√15 ∼ t(15) 0, 95 = P (−δ < T < δ) = P (T < (δ) − P (T < −δ) = 2 × P (T (δ) − 1

Logo, P (T < δ) = 1,95₂ = 0, 975 tal que via R solicitamos qt(0.975, 15), que retorna o quantil 2.13145.

Assim, calculando o desvio-padr˜ao amoestral obtemos

x=c(82,102,91,90,87,107,83,78,88,101,99,76,67,87,99,88) sd(x) [1] 10.68

(41)

Logo, o intervalo ´e dado por 89.06 ± 2.13 × 10.68√