• Nenhum resultado encontrado

Inferência Estatística: como fazer afirmações sobre uma população conhecendo uma amostra

N/A
N/A
Protected

Academic year: 2021

Share "Inferência Estatística: como fazer afirmações sobre uma população conhecendo uma amostra"

Copied!
66
0
0

Texto

(1)

Inferˆencia Estat´ıstica: como fazer afirma¸c˜oes sobre uma popula¸c˜ao conhecendo uma amostra da popula¸c˜ao?

Referˆencia: Bussab e Morettin - Estat´ıstica B´asica - Editora Saraiva - Cap´ıtulos 10 e 11.

Introdu¸c˜ao

O uso de informa¸c˜oes de uma amostra para concluir sobre o todo faz parte da atividade di´aria da maioria das pessoas.

Observe como uma dona de casa verifica se o feij˜ao est´a bom de sal. Ou ainda, observe quando um cliente de supermercado, ap´os pro-var uma uva rosada na se¸c˜ao de horti-fruti, decide se vai comprar ou n˜ao dessas uvas. Es-sas decis˜oes s˜ao baseadas em procedimentos amostrais.

(2)

Conceitos Importantes

Popula¸c˜ao: ´e o conjunto de todos os elemen-tos sob investiga¸c˜ao com pelo menos uma ca-racter´ıstica em comum.

Amostra: ´e qualquer subconjunto n˜ao-vazio da popula¸c˜ao.

Parˆametro: Caracter´ıstica num´erica da po-pula¸c˜ao.

Estat´ıstica: Caracter´ıstica num´erica da amos-tra.

(3)

Observe que aqui o uso da palavra estat´ıstica tem outro significado.

Com o conceito que acabamos de apresentar podemos dizer que usamos estat´ısticas para es-timar parˆametros.

Um estimador de um parˆametro ´e uma es-tat´ıstica.

Uma quest˜ao importante na Inferˆencia Estat´ ısti-ca ´e a de como avaliar um estimador.

(4)

Problemas de Inferˆencia

• Verifica¸c˜ao do tempo de vida m´edio da lˆampada fluorescente especificado pelo fa-bricante. Essa verifica¸c˜ao pode fazer parte de

1. um procedimento de controle de qua-lidade da empresa - se o tempo m´edio de vida da amostra retirada de um lote de tais lˆampadas n˜ao atender `a especi-fica¸c˜ao estabelecida, ent˜ao todo o lote deve ser rejeitado;

2. um procedimento de um ´org˜ao de de-fesa do consumidor - se o tempo m´edio de vida de uma amostra de tais lˆampadas obtidas de diversos pontos de venda aten-der `a especifica¸c˜ao do fabricante, ent˜ao a reclama¸c˜ao dos consumidores n˜ao de-ver´a ser aceita.

(5)

• Avalia¸c˜ao de um novo produto. Antes do lan¸camento, o novo produto ser´a distribu´ ı-do a um grupo de consumiı-dores potenci-ais que responder˜ao um question´ario. Se os resultados dos question´arios mostrarem que o novo produto foi bem aceito, ent˜ao o grupo de marketing ter´a suporte para de-fender o lan¸camento do novo produto.

• Previs˜ao do tempo m´edio de espera dos clientes no caixa de um banco. Se o tempo m´edio de espera de uma amostra de clientes for maior que o tempo m´edio afirmado pelo gerente da agˆencia, ent˜ao ser´a bastante prov´avel que as reclama¸c˜oes dos clientes tenham fundamento.

(6)

• H´a raz˜oes para supor que o tempo de rea-¸

c˜ao Y a certo est´ımulo visual depende da idade do indiv´ıduo. Suponha que essa de-pendˆencia seja linear.

Para verificar se essa suposi¸c˜ao ´e verdadeira, obtiveram-se 20 dados da seguinte forma: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres. Dentro de cada grupo, de homens e mulheres, foram sele-cionadas duas pessoas das seguintes faixas de idade: 20, 25, 30, 35 e 40 anos.

Cada pessoa foi submetida ao teste e seu tempo de rea¸c˜ao y foi registrado.

A popula¸c˜ao poderia ser considerada como formada por todas aquelas pessoas que vies-sem a ser submetidas ao teste, segundo o sexo e a idade. A amostra ´e formada pelas 20 medidas de tempos de rea¸c˜ao.

(7)

• Previs˜ao da popula¸c˜ao brasileira por gˆenero e idade a fim de formular pol´ıticas p´ublicas para os pr´oximos 40 anos.

Existem diversos modelos de previs˜ao de tamanho de popula¸c˜ao. Diversos fatores interferem na dinˆamica da popula¸c˜ao. Na quinta-feira, dia 29 de agosto de 2013, o IBGE divulgou que no Brasil j´a s˜ao 201 milh˜oes de habitantes e tamb´em apresen-tou uma previs˜ao sobre a popula¸c˜ao por gˆenero e idade at´e 2060.

A popula¸c˜ao total projetada para o Brasil em 2013 foi de 201,0 milh˜oes de habitantes, atingindo 212,1 milh˜oes em 2020, at´e alcan¸car o m´aximo de 228,4 milh˜oes em 2042, quando come¸car´a a decrescer, atingindo o valor de 218,2 em 2060, n´ıvel equiva-lente ao projetado para 2025 (218,3 milh˜oes).

(8)

• Estudo revela que a estatura m´edia dos homens eu-ropeus aumentou 11 cm entre 1870 e 1980 Em O Globo, 04/09/2013.

LONDRES - A estatura m´edia dos homens europeus aumen-tou 11 cent´ımetros, de 167 a 178, em pouco mais de um s´eculo, segundo resultados de uma pesquisa da Universidade de Essex, do Reino Unido. No estudo foram analisados dados da estatura dos homens com 20 anos de 15 pa´ıses europeus entre 1870 e 1980. A an´alise se limitou a homens, segundo a pesquisa, porque os dados de mulheres s˜ao mais dif´ıceis de se conseguir. Durante as ´ultimas d´ecadas, a informa¸c˜ao foi obtida principalmente em levantamentos de estatura de soldados. N˜ao houve grande diferen¸ca entre os pa´ıses. O es-tudo revela que muitos pa´ıses europeus, entre eles a Gr˜a Bre-tanha e a Irlanda, os pa´ıses escandinavos, Holanda, ´Austria, B´elgica e Alemanha, tiveram “clara acelera¸c˜ao” do ritmo de crescimento durante as duas guerras mundiais e a Grande Depress˜ao. Fato que os autores consideram “surpreendente”, j´a que ´e o per´ıodo anterior aos grandes avan¸cos da medicina moderna e da implementa¸c˜ao dos servi¸cos nacionais de sa´ude. O aumento da estatura humana ´e um indicador chave para a melhora da sa´ude da popula¸c˜ao, afirmou ao “El Pa´ıs”, Timo-thy Hatton, professor de Economia da Universidade de Essex e diretor do estudo. Na opini˜ao dele, uma raz˜ao poss´ıvel para este aumento, al´em da diminui¸c˜ao da mortalidade infantil, poderia ser a forte tendˆencia de redu¸c˜ao de fecundidade.

(9)

Como selecionar uma amostra?

As observa¸c˜oes contidas numa amostra s˜ao tanto mais informativas sobre a popula¸c˜ao, quan-to mais conhecimenquan-to tivermos dessa mesma popula¸c˜ao.

Por exemplo a an´alise quantitativa de gl´obulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente d´a a ideia geral da quantidade de gl´obulos brancos no corpo todo, pois sabe-se que a distribui¸c˜ao dos gl´obulos brancos ´e homogˆenea, e de qualquer lugar que se tivesse retirado a amostra ela seria “representativa”.

Nem sempre a escolha de uma amostra ade-quada ´e imediata.

(10)

Em Bussab e Morettin, os procedimentos de levantamento de dados s˜ao apresentados nos seguintes trˆes grupos.

1. Levantamentos Amostrais - a amostra ´e obtida de uma popula¸c˜ao bem definida, por meio de processos bem protocolados e contro-lados pelo pesquisador.

Tais levantamentos costumam ser subdividi-dos em dois subgrupos: probabil´ısticos e n˜ ao-probabil´ısticos. O primeiro re´une todas as t´ ec-nicas que usam mecanismos aleat´orios de sele-¸

c˜ao dos elementos de uma amostra, atribuindo a cada um deles, uma probabilidade, conhecida a priori, de pertencer `a amostra.

(11)

No segundo grupo est˜ao os demais procedi-mentos, tais como amostras intencionais, nas quais os elementos s˜ao selecionados com o aux´ılio de especialistas, e amostras de volunt´ a-rios, como ocorre em alguns testes sobre novos medicamentos e vacinas.

A grande vantagem dos procedimentos proba-bil´ısticos ´e poder medir a precis˜ao da amostra obtida.

2. Planejamento de Experimentos. Tˆem como principal objetivo analisar o efeito de uma vari´ a-vel sobre outra(s). Requer interferˆencias do pesquisador sobre o ambiente em estudo (po-pula¸c˜ao), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.

Exemplo: A altura de um produto na gˆondola de um supermercado afeta as vendas do pro-duto? Se sim, como?

(12)

3. Levantamentos Observacionais. Os da-dos s˜ao coletados sem que o pesquisador te-nha controle sobre as informa¸c˜oes obtidas, ex-ceto eventualmente sobre poss´ıveis erros gros-seiros. As s´eries de dados temporais s˜ao e-xemplos t´ıpicos desses levantamentos.

Exemplo: suponha o problema de prever as vendas futuras numa empresa em fun¸c˜ao das vendas passadas. O pesquisador n˜ao pode se-lecionar dados, esses s˜ao as vendas efetiva-mente ocorridas.

Observe que aqui tamb´em se encaixa o pro-blema de proje¸c˜oes de tamanhos populacionais.

(13)

Amostra Aleat´oria Simples(AAS)

Uma amostra aleat´oria simples ocorre quando atribu´ımos probabilidades de sele¸c˜ao na amos-tra iguais para todos os elementos da popula-¸

c˜ao.

Com rela¸c˜ao `a precis˜ao neste tipo de amostra-gem existe diferen¸ca se a sele¸c˜ao ´e feita com reposi¸c˜ao ou sem reposi¸c˜ao.

No entanto, quando o tamanho da amostra for muito inferior ao tamanho da popula¸c˜ao (menor que 5% da popula¸c˜ao) a sele¸c˜ao sem reposi¸c˜ao comporta-se, de modo aproximado, como uma sele¸c˜ao com reposi¸c˜ao, e nesse caso costuma-se tratar o problema como se fosse com reposi¸c˜ao.

(14)

Distribui¸c˜ao Amostral

No in´ıcio da aula falamos em usar estat´ısticas para estimar um parˆametro.

Na pr´atica s´o podemos obter uma amostra da popula¸c˜ao e, com base nela, tirar conclus˜oes sobre a popula¸c˜ao.

Como poderemos fazer afirma¸c˜oes sobre a qua-lidade das nossas conclus˜oes? Como podere-mos falar sobre o erro decorrente da variabili-dade amostral?

A resposta a essas perguntas envolve o con-ceito de distribui¸c˜ao amostral.

(15)

Suponha o problema de estimar um parˆametro θ de certa popula¸c˜ao e que para isso dismos de uma adismostra de tamanho n dessa po-pula¸c˜ao: x1, x2, ..., xn. Suponha tamb´em que usaremos uma estat´ıstica T fun¸c˜ao da amostra para estimar θ.

T = t(x1, x2, ..., xn)

T pode ser a soma (

n X i=1

xi), a m´edia (¯x), a me-diana, a amplitude, o desvio padr˜ao amostral, e sua escolha depender´a do parˆametro que que-remos estimar.

Para poder avaliar a qualidade de T como esti-mador de θ ´e fundamental conhecer o modelo probabil´ısitco que explica a variabilidadde de seus valores, ou seja, a distribui¸c˜ao amostral de T .

(16)

A figura a seguir ilustra como poder´ıamos ficticiamente obter essa distribui¸c˜ao.

(17)

Mas como poderemos pelo menos fazer um histograma de valores da estat´ıstica se s´o dis-pomos de uma amostra?

O Teorema Central do Limite da Teoria das Probabilidades ´e uma pe¸ca chave para resolver esse problema.

Vamos simplificar o problema de estima¸c˜ao de um parˆametro gen´erico θ para um problema espec´ıfico de estima¸c˜ao da m´edia populacional, µ.

Para isso dispomos de uma amostra aleat´oria de tamanho n da popula¸c˜ao cujos valores ob-servados s˜ao x1, x2, ..., xn.

No que segue usaremos: µ para a m´edia da popula¸c˜ao e

σ2 para a variˆancia da popula¸c˜ao (σ - desvio padr˜ao da popula¸c˜ao).

Um estimador natural de µ a ser usado ´e a m´edia amostral ¯x.

(18)

O Teorema Central do Limite (TCL) afirma: Se X1, X2,..., Xn ´e uma amostra aleat´oria sim-ples de uma popula¸c˜ao qualquer cuja m´edia ´e µ e variˆancia ´e σ2, a distribui¸c˜ao amostral de ¯X = 1

n

n X i=1

Xi, a m´edia amostral, se apro-xima de uma distribui¸c˜ao normal com m´edia µ e variˆancia σ

2

n quando n cresce.

Ou seja, para n suficientemente grande, ¯ X ∼ Na µ, σ 2 n ! ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1)

Para entender melhor esse resultado vamos a-presentar alguns exemplos.

(19)

Situa¸c˜ao 1: Suponha uma popula¸c˜ao Uniforme em [0,5]: sua densidade ´e constante no in-tervalo dado. O valor esperado de uma po-pula¸c˜ao uniforme em [0,5] ´e 2,5 e a variˆancia ´e 25/12 ' 2, 08.

Agora vamos sortear 100 amostras aleat´orias de tamanho 2 e calcular as respectivas m´edias amostrais. A figura a seguir mostra um his-tograma dos 100 valores obtidos.

(20)

Os histogramas a seguir mostram os compor-tamentos da m´edia amostral para 100 amostras de tamanho 5, 10, 15 e 25 de uma popula¸c˜ao uniforme em [0,5].

(21)
(22)

Como ´e poss´ıvel perceber, a medida que au-mentamos o tamanho da amostra, a variabi-lidade dos valores da m´edia amostral se torna cada vez mais sim´etrica em torno de 2,5 (a m´edia da popula¸c˜ao) e que a variabilidade em torno da m´edia diminui.

Para amostras de popula¸c˜oes uniformes, consi-deram-se tamanhos amostrais moderados para usar o TCL. Para n = 15 a aproxima¸c˜ao j´a ´e boa. No entanto, se a distribui¸c˜ao popu-lacional for muito afastada de uma normal, por exemplo com forte assimetria positiva, ser´a necess´ario um tamanho amostral bem superior a 15 para que a aproxima¸c˜ao seja considerada boa.

(23)

Suponha uma popula¸c˜ao com o seguinte com-portamento.

Aqui foi escolhida uma popula¸c˜ao cuja m´edia ´e 0,04, mas que apresenta assimetria positiva.

(24)

Histogramas dos valores de ¯x para 200 amostras de tamanhos 5, 20, 30 e 40.

(25)

Mas como saber quando o tamanho amostral ´e adequado ou n˜ao para usar o TCL?

Vocˆe n˜ao precisar´a se preocupar com isso. Em geral, o uso do TCL ´e considerado adequado para amostras de tamanho maior ou igual a 30, independentemente da forma original da popula¸c˜ao.

O desvio padr˜ao da distribui¸c˜ao amostral da m´edia, igual a √σ

n, ´e chamado de erro padr˜ao

de ¯X. Ele fornece uma medida do grau com que as m´edias amostrais se desviam do valor esperado de sua distribui¸c˜ao (que coincide com a m´edia populacional µ).

Logo, podemos usar essa informa¸c˜ao para des-cobrir o qu˜ao precisa ´e a nossa estimativa da m´edia da popula¸c˜ao.

(26)

Vejamos um exemplo te´orico. Suponha que uma popula¸c˜ao, caracterizada por uma vari´avel aleat´oria X, tenha distribui¸c˜ao normal com m´ e-dia 10 e variˆancia 100.

X ∼ N ( 10 |{z} =µ , 100 | {z } =σ2 )

Suponha tamb´em que iremos trabalhar com amostras aleat´orias de tamanho n = 16. Como fica a distribui¸c˜ao amostral de ¯X, a m´edia amos-tral?

(27)

Aqui cabe comentar que no caso de popula¸c˜oes normais, n˜ao ´e necess´ario usar o TCL, pois a distribui¸c˜ao amostral de ¯X ´e, de fato, uma normal. Assim, temos ¯ X ∼ N  µ, σn2  = N (10, 6.25).

Veja o gr´afico dessa distribui¸c˜ao (em vermelho destaca-se a distribui¸c˜ao da popula¸c˜ao).

(28)

Como ´e poss´ıvel ver a distribui¸c˜ao amostral da m´edia ´e muito mais concentrada em torno de seu valor esperado do que a distribui¸c˜ao da popula¸c˜ao.

Calcule, por exemplo, agora P (−5 < ¯X < 15) e compare com P (−5 < X < 15)

Usando o Excel:

P (−5 < X < 15) = normdist(15; 10; 10; true)−normdist(−5; 10; 10; true) ' 0.8664

P (−5 < ¯X < 15) = normdist(15; 10; 2.5; true)−normdist(−5; 10; 2.5; true) ' 1−

A nota¸c˜ao 1− foi usada para indicar que a probabilidade ´e quase igual a 1, mas ´e menor que 1.

(29)

Vimos que entre ±1, 96 desvios da m´edia o gr´afico da distribui¸c˜ao normal compreende 95% dos valores. Qual deveria ser o tamanho da amostra se desej´assemos que em 95% das vezes a m´edia amostral ca´ısse entre 10 ± 2, isto ´e, entre 8 e 12? 0, 95 = P (8 < ¯X < 12) = P  8−10 10/√n < Z < 12−10 10/√n  = = P −0, 2√n < Z < 0, 2√n = 2φ(0, 2√n) − 1 Logo, φ(0, 2√n) = 0, 975 e, usando a tabela da normal pard˜ao 0, 2√n = 1, 96.

n = 1, 96

0, 2 ↔ n = (9, 8)

2 ' 96.

(30)

Antes de prosseguir, vamos enumerar os prin-cipais resultados apresentados at´e aqui.

Sejam

X uma popula¸c˜ao com m´edia µ e variˆancia σ2; X1, X2, ..., Xn uma amostra aleat´oria de tamanho n da popula¸c˜ao; ¯ X = 1n n X i=1 Xi a m´edia amostral.

Ent˜ao, o valor esperado, ou simplesmente a m´edia, da distribui¸c˜ao de ¯X ´e dado por

E[ ¯X] = µ e, a variˆancia, por Var( ¯X) = σ

2

n . O erro-padr˜ao (desvio padr˜ao) de ¯X: σX¯ = √σ

(31)

Se a popula¸c˜ao for normal, ¯

X ∼ N (µ, σ

2

n )

qualquer que seja n; ou equivalentemente, ¯

X − µ

σ/√n ∼ N (0, 1).

Se a popula¸c˜ao n˜ao for normal, segue, do TCL, que para n ≥ 30, ¯ X ∼ N (µ,a σ 2 n ) ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1).

(32)

Nos problemas reais o valor de σ tamb´em n˜ao ´e conhecido. Portanto, ser´a necess´ario, usando a amostra dispon´ıvel, estimar seu valor.

Observe que como o erro padr˜ao de ¯X σX¯ = √σ n

!

´e inversamente proporcional ao tamanho da amostra, isso significa que quanto maior for o tamanho amostral, menor ser´a a variabilidade das m´edias amostrais e, portanto, mais precisa ser´a a nossa estimativa da m´edia populacional. O mesmo deve ser esperado para estimativas do desvio padr˜ao populacional σ: quanto maior for a amostra, mais precisas ser˜ao as nossas estimativas.

Se X1, X2, ..., Xn ´e a amostra observada, esti-mamos a variˆancia da popula¸c˜ao σ2 pela va-riˆancia amostral S2 = 1

n−1 n X i=1 (Xi − ¯X)2 e, σ por S = √ S2.

(33)

Assim, para amostras grandes n ≥ 30, se σ2 ´e desconhecido, usamos uma estimativa dada por s e aplicamos o TCL ¯ X − µ S/√n a ∼ N (0, 1) . com S estimador de σ. E se n < 30? Como proceder?

Vamos come¸car essa discuss˜ao com um exem-plo particular de estima¸c˜ao de uma propor¸c˜ao populacional.

Seja X1, X2,..., Xn uma amostra aleat´oria da distribui¸c˜ao binomial(1, p) tal que cada Xi ´e 0 ou 1 com probabilidades 1 − p ou p respecti-vamente. Suponha que p seja desconhecida e represente uma propor¸c˜ao de interesse.

Lembre que no modelo binomial(1, p) tem-se valor esperado µ = p e variˆancia σ2 = p(1 − p).

(34)

Observe que nesse contexto ¯X = ˆp ´e a pro-por¸c˜ao amostral de “sucessos”. ´E natural usar a propor¸c˜ao amostral (que ´e uma m´edia) como estimador da propor¸c˜ao populacional.

Se n ´e grande podemos usar o TCL tal que

ˆ p ∼ Na        p |{z} =µ , p(1 − p) n | {z } =σ2n        .

Por´em, para valores moderados de n e de-pendendo do verdadeiro valor de p essa apro-xima¸c˜ao poder´a n˜ao ser boa.

No entanto, nesse contexto particular, ´e f´acil ver que nˆp ∼ binomial(n, p), pois representar´a o n´umero de sucessos em n Ensaios de Bernoulli com probabilidade de sucesso p.

Assim, a distribui¸c˜ao exata de ˆp ´e uma binomial multiplicada por um fator 1/n.

(35)

Exemplo: Um professor d´a um teste de 20 quest˜oes do tipo certo ou errado. Para tes-tar a hip´otese de o estudante estar chutando a resposta, ele adota a seguinte regra de de-cis˜ao: “Se 13 ou mais quest˜oes estiverem cor-retas, ele decide que o estudante n˜ao chutou as quest˜oes do teste”. Qual ´e a probabilidade de rejeitarmos a hip´otese, sendo ela de fato verdadeira?

Solu¸c˜ao: Se a hip´otese ´e de fato verdadeira observe que o estudante ir´a acertar cada uma das 20 quest˜oes com probabilidade 1/2. Re-jeitamos a hip´otese se o n´umero de acertos ´e maior ou igual a 13.

Seja X o n´umero de acertos. Queremos cal-cular P (X ≥ 13 dado que p = 1/2). Observe que nesse caso, X ∼ binomial(20, 1/2).

Vamos usar o Bioestat para calcular essa pro-babilidade.

(36)

Depois de abrir o programa, escolha no menu horizontal superior Estat´ısticas e, depois Dis-tribui¸c˜oes de Probabilidade. Em seguida, clique na op¸c˜ao binomial.

Basta ent˜ao informar n = 20, k = 13 e pro-por¸c˜ao esperada igual a 1/2.

(37)

Assim,

P (X ≥ 13) = P (X = 13) + P (X > 13) = = 0, 0739 + 0, 0577 = 0, 1316

tal que h´a uma probabilidade de cerca de 13% de rejeitar a hip´otese de que o aluno est´a chu-tando as respostas do teste dado que de fato ele chutou.

No Excel usa-se

= 1 − distr.binom(12; 20; 0, 5; verdadeiro) que retorna o valor 0,131587982' 0, 13.

Qual deveria ser a regra se desej´assemos que essa probabilidade fosse no m´aximo igual a 5%?

(38)

Para responder a pergunta podemos ir aumen-tando o valor de k na tela binomial do Bioestat at´e a primeira vez que P (X ≥ k) seja inferior a 0,05.

Por exemplo, se aumentarmos para k=14, obte-remos P (X ≥ 14) = 0.0577 que ainda ´e maior que 0,05.

Vejamos ent˜ao com k = 15. Agora temos P (X ≥ 15) = 0, 0207. Logo a resposta ser´a “Devemos rejeitar a hip´otese de que o aluno est´a chutando as respostas, se o n´umero de acertos for maior ou igual a 15.”

Observe que como o problema envolve uma vari´avel aleat´oria discreta, n´umero de acertos, pode n˜ao existir uma solu¸c˜ao exata para proba-bilidades fixadas. Fixamos a probabilidade em 5%, mas vimos que ou a regra ´e para 14 acer-tos e a probabilidade ´e cerca de 6%(5,77%) ou para 15, e a probabilidade ´e cerca de 2%(2,07%).

(39)

Agora vamos ver como fica o caso de amostras moderadas de uma vari´avel aleat´oria cont´ınua. Suponha que dispomos de uma amostra aleat´ o-ria de tamanho moderado (n < 30) de uma vari´avel aleat´oria X cont´ınua.

Nesse caso, h´a uma solu¸c˜ao similar quando a vari´avel aleat´oria sob considera¸c˜ao tem uma distribui¸c˜ao normal. Por´em, se claramente n˜ao for razo´avel supor a normalidade da vari´avel em estudo, a solu¸c˜ao que iremos apresentar n˜ao ser´a adequada.

Uma poss´ıvel forma de lidar com dados n˜ao normais ´e transform´a-los.

(40)

Por exemplo, para dados positivos com assime-tria `a direita, costuma-se usar a transforma¸c˜ao logar´ıtmica. Se com a transforma¸c˜ao, a su-posi¸c˜ao de normalidade for razo´avel, podemos trabalhar na escala transformada, lembrando depois de voltar `a escala original na hora de apresentarmos nossas conclus˜oes.

Existem t´ecnicas de inferˆencia estat´ıstica n˜ ao-param´etrica que n˜ao requerem a suposi¸c˜ao da forma da distribui¸c˜ao da popula¸c˜ao que tam-b´em podem ser usadas para o caso n˜ao-normal com amostras moderadas.

Veremos agora a solu¸c˜ao para o caso: amos-tras moderadas de uma popula¸c˜ao normal com m´edia µ e desvio padr˜ao σ desco-nhecidos.

(41)

Para isso, vamos enunciar primeiro um impor-tante resultado para amostras da distribui¸c˜ao normal.

Seja X1, X2, ..., Xn uma amostra da distribui¸c˜ao N (µ, σ2).

Ent˜ao, 1. X ∼ N µ,¯ σ2 n  ; 2. S2 = 1 n−1 n X i=1

(Xi − ¯X)2 e ¯X s˜ao vari´aveis aleat´orias

independentes; 3. n−1

σ2 S

2 tem uma distribui¸ao de qui-quadrado com

n − 1 graus de liberdade (ser´a explicado adiante) e; 4.

T = ¯ X − µ

S/√n

(42)

A distribui¸c˜ao t

Tamb´em conhecida como distribui¸c˜ao t de Stu-dent, leva esse nome pois foi publicada por William Sealy Gosset (1876-1937) em 1908 sob o pseudˆonimo de Student, pois Gosset n˜ao podia usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a cerve-jaria Guinness.

A distribui¸c˜ao t, como a normal padr˜ao, tam-b´em tem densidade sim´etrica em torno de zero, por´em apresenta caudas mais pesadas do que a normal padr˜ao. O ´unico parˆametro que a define (ν) caracteriza a sua forma e ´e chamado n´umero de graus de liberdade.

(43)

Quanto maior for o valor do parˆametro ν, a distribui¸c˜ao t(ν) se aproximar´a da distribui¸c˜ao normal padr˜ao.

Os dois gr´aficos a seguir ilustram as propriedades citadas da distribui¸c˜ao t.

(44)
(45)

Como obter probabilidades associadas a dis-tribui¸c˜ao t(ν)?

Da mesma forma que a normal padr˜ao, tamb´em est˜ao dispon´ıveis na maioria dos livros de es-tat´ıstica tabelas da distribui¸c˜ao t. Probabili-dades associadas a distribui¸c˜ao t tamb´em po-dem ser obtidas via programas estat´ısticos. A planilha EXCEL por exemplo fornece probabi-lidades associadas a distribui¸c˜ao t.

Como vimos a distribui¸c˜ao t ´e caracterizada por um parˆametro ν, chamado n´umero de graus de liberdade.

(46)
(47)

Exemplo: Suponha que se deseja estimar o tempo m´edio para realizar uma tarefa. Para isso sorteou-se uma amostra aleat´oria de 16 oper´arios cujos tempos de realiza¸c˜ao da tarefa, em minutos, foram registrados.

82 102 91 90 87 107 83 78 88 101 99 76 67 87 99 88

(48)

Suponha que desejamos determinar um inter-valo sim´etrico em torno da verdadeira m´edia tal que a probabilidade da estat´ıstica T cair entre esses dois valores seja de 95%.

J´a resolvemos um problema similar a esse, mas no contexto da distribui¸c˜ao normal com variˆ an-cia conhecida e vimos que, depois de padronizar, P (−1, 96 < Z < 1, 96) = 0, 95. Observe que agora, apesar de considerarmos a normalidade dos dados, a variˆancia da popula¸c˜ao n˜ao ´e co-nhecida. Logo, usaremos a distribui¸c˜ao t com n − 1 = 16 − 1 = 15 graus de liberdade.

Aqui, a chave para solucionar esse problema ´e usar o resultado

T = ¯

X − µ

(49)

No Bioestat, escolhendo o m´odulo distribui¸c˜oes de probabilidade, outras distribui¸c˜oes, distribui-¸

c˜ao t, podemos por tentativas encontrar o valor sim´etrico em torno de zero que produz uma probabilidade de 95% para os valores inter-medi´arios.

Depois de algumas tentativas o Bioestat fornece o valor 2.13, uma aproxima¸c˜ao com duas casas decimais.

(50)

No Excel, obtemos esse valor de forma mais direta usando a fun¸c˜ao

= IN V.T ( 0, 975 | {z } probabilidade acumulada ; graus de liberdade z}|{ 15 )

que retorna o valor 2,13145. Logo,

P (−2, 13 < T = ¯

X − µ

(51)

Como verificar se a suposi¸c˜ao de normalidade dos dados ´e razo´avel?

Existem ferramentas gr´aficas tais como os gr´ a-ficos de probabilidade normal, que devem ter uma aparˆencia linear, quando os dados de fato s˜ao normais e, os histogramas das distribui¸c˜oes de frequˆencias, que devem ter uma forma uni-modal aproximadamente sim´etrica em torno da m´edia.

Tamb´em existem v´arios testes estat´ısticos de verifica¸c˜ao da suposi¸c˜ao de normalidade. Va-mos deixar esta discuss˜ao para uma aula pos-terior `a pr´oxima, na qual trabalharemos com as primeiras idieas de testes de hip´oteses e alguns testes mais simples.

(52)

Intervalos de Confian¸ca

Vamos come¸car com um exemplo. Suponha que se deseja estimar a m´edia µ de uma po-pula¸c˜ao qualquer e que para isso usaremos a m´edia amostral ¯X de uma amostra aleat´oria de tamanho n. Usando o TCL, supondo n ≥ 30 temos que ¯ X − µ σ/√n a ∼ N (0, 1).

Logo, usando a tabela da normal padr˜ao, pode-mos escrever, por exemplo,

P (−1, 96 < ¯ X − µ σX¯ < 1, 96) = 0, 95 com σX¯ = √σ n.

(53)

Por meio de opera¸c˜oes alg´ebricas, ´e poss´ıvel reescrever a equa¸c˜ao anterior na forma

P X − 1, 96σ¯ X¯ < µ < 1, 96σX¯ = 0, 95

e, essa equa¸c˜ao nos fornece os limites de 95% de confian¸ca de µ, a saber,

¯

X ± 1, 96σX¯

Nota¸c˜ao: IC(µ, 0.95) : X ± 1, 96σ¯ X¯

com σX¯ = √σ n.

(54)

Interpreta¸c˜ao do intervalo: a figura a seguir ´e ´

util na interpreta¸c˜ao.

Resumindo: Se pud´essemos construir uma quan-tidade grande de intervalos da forma ¯X±1, 96σX¯, todos baseados em amostras aleat´orias de tama-nho n da popula¸c˜ao, 95% deles conteriam o parˆametro µ.

(55)

No exemplo que acabamos de apresentar, 95% ´e dito ser o n´ıvel ou coeficiente de confian¸ca do intervalo.

´

E claro que podemos usar um n´ıvel de con-fian¸ca qualquer e que, em geral far´a sentido, n´ıveis de confian¸ca altos, pr´oximos de 1.

1,96 ´e o quantil da distribui¸c˜ao normal padr˜ao tal que P (−1, 96 < Z < 1, 96) = 0, 95.

Vamos adotar a seguinte nota¸c˜ao seja z(γ) tal que

P (−z(γ) < Z < z(γ)) = γ, 0 < γ < 1.

(56)

Observe que com essa nota¸c˜ao z(0.95) = 1, 96. E tamb´em que um intervalo de n´ıvel de con-fian¸ca γ para µ ´e dado por ¯X ± z(γ)σX¯.

(57)

Intervalos de Confian¸ca com n´ıvel de confian¸ca γ para a m´edia populacional

1. Amostras da distribui¸c˜ao normal ou amostras suficientemente grandes n ≥ 30 IC(µ, γ) : X¯ |{z} m´edia amostral ±z(γ) √σ n | {z } erro padr˜ao

Observa¸c˜ao: se o valor de σ n˜ao for conhecido substitua-o na express˜ao acima por uma esti-mativa.

2. Amostras da distribui¸c˜ao normal, σ desco-nhecido, n < 30 IC(µ, γ) : X¯ |{z} m´edia amostral ±t(γ,n−1) √s n | {z } erro padr˜ao de ¯X

(58)

Em (2) na tela anterior a nota¸c˜ao t(γ,n−1) ´e similar `a nota¸c˜ao usada na distribui¸c˜ao normal, conforme a figura a seguir. A diferen¸ca ´e que agora usamos uma distribui¸c˜ao t com n − 1 graus de liberdade.

(59)

Intervalos de Confian¸ca para a propor¸c˜ao po-pulacional

No caso de intervalos para a propor¸c˜ao, se fos-semos usar a express˜ao dada em (1) ter´ıamos

IC(p, γ) : pˆ |{z} propor¸c˜ao amostral ±z(γ) q p(1 − p) √ n | {z } erro padr˜ao de ˆp

No entanto o valor de p n˜ao ´e conhecido e aparece na express˜ao do erro padr˜ao. Nesse contexto costuma-se adotar duas estrat´egias. A primeira, conservadora, trabalha com o pior cen´ario poss´ıvel e substitui p na f´ormula do erro padr˜ao por 1/2, que produz o intervalo mais largo poss´ıvel.

A segunda , que pode ser usada para tamanhos amostrais suficientemente grandes, substitui p por ˆp.

(60)

Assim temos, Alternativa conservadora: IC(p, γ) : ˆp ± z(γ) s 1 4n Outra alternativa: IC(p, γ) : ˆp ± z(γ) q ˆ p(1 − ˆp) √ n

(61)

Exemplo 1: (Pinheiro e outros - Estat´ıstica B´asica: a arte de trabalhar com dados - Cap. 7- ex. 7.6)

Levando em conta simultaneamente as respos-tas dadas por 200 clientes de uma empresa a todos os itens de um question´ario, foi calcu-lado um ´ındice de satisfa¸c˜ao global correspon-dente a cada responcorrespon-dente. Este ´ındice varia de 0 (totalmente insatisfeito) a 100 (totalmente satisfeito). Com respeito a esse ´ındice de sa-tisfa¸c˜ao foi constru´ıdo um intervalo de 95% de confian¸ca para o n´ıvel m´edio de satisfa¸c˜ao da popula¸c˜ao de clientes dessa empresa e que resultou nos seguintes limites

IC(µ, 95%) : (43, 5 ; 63, 9).

Quais das afirma¸c˜oes a seguir est˜ao corretas e quais n˜ao est˜ao? Justifique cada uma de suas respostas.

(62)

(a) A probabilidade de que µ esteja entre 43,5 e 63,9 ´e 95%.

(b) Se fosse extra´ıda uma outra amostra, tam-b´em com 200 clientes, a probabilidade de a m´edia amostral dos ´ındices de satisfa¸c˜ao ob-servados cairem entre 43,5 e 63,9 ´e 95%.

(c) Se fossem extra´ıdas 100 amostras de tama-nho 200 e se usasse o mesmo procedimento que deu origem ao intervalo apresentado no enunciado para cada amostra, cerca de 95% dos intervalos obtidos conteriam o valor de µ. (d) O desvio padr˜ao populacional do ´ındice de satisfa¸c˜ao ´e aproximadamente igual a 5,1.

(e) Todos os entrevistados apresentaram ´ındices de satisfa¸c˜ao entre 43,5 e 63,9.

(63)

Exemplo 2: (Dancey e Reidy - Estat´ıstica sem Matem´atica para Psicologia. Cap´ıtulo 4. Ex-erc´ıcio 2)

O Dr. Doolittle finalmente desistiu da ideia de conversar com animais e decidiu tornar-se um psic´ologo experimental de animais. Ele est´a particularmente interessado em descobrir se os gatos s˜ao ou n˜ao mais inteligentes que os ca-chorros. Para isso ele desenvolveu um teste de inteligˆencia espec´ıfico para esse estudo e testa amostras de gatos e cachorros. Ele foi cuida-doso para n˜ao introduzir qualquer tipo de v´ıcio no teste e acredita que criou um teste que n˜ao est´a associado `as esp´ecies, ou seja, pode ser u-sado em qualquer esp´ecie. Dr, Dotlittle espera que exista uma diferen¸ca entre os escores de gatos e cachorros. No experimento ele traba-lhou com duas amostras aleat´orias de 10 gatos e 10 cachorros e, os resultados obtidos, est˜ao na tabela a seguir.

(64)

gatos cachorros 95 116 100 112 104 102 78 96 130 89 111 124 89 131 114 117 102 107 97 110

1. Construa intervalos de confian¸ca de 95% de confian¸ca para os escores m´edios de gatos e de cachorros.

2. Que suposi¸c˜oes vocˆe usou para construir os intervalos do item anterior?

3. Vocˆe diria que o Dr. Doolittle est´a cor-reto? Por que?

(65)

Exemplo 3: (Levine e outros - Estat´ıstica: Teo-ria e Aplica¸c˜oes - Cap. 6 - exerc´ıcio 6.56)

O diretor de pessoal de uma grande corpora¸c˜ao deseja estudar o absente´ısmo dos trabalhadores administrativos do escrit´orio central da cor-pora¸c˜ao durante o ano. Uma amostra aleat´ o-ria de 25 empregados administrativos revelou o seguinte:

• ¯x = 9, 7 dias, s = 4 dias

• 12 trabalhadores administrativos estiveram ausentes mais de 10 dias.

(a) Construa um intervalo de 99% de con-fian¸ca, para o n´umero m´edio de ausˆencias de trabalhadores administrativos no ano pasado. (b) Construa um intervalo de 95% de con-fian¸ca para a propor¸c˜ao de trabalhadores ad-ministrativos que estiveram ausentes por mais de 10 dias durante o ano passado.

(66)

Referˆencias bibliogr´aficas:

(1) Busssab e Morettin - Estat´ıstica B´asica. Editora Saraiva

(2) Pinheiro e outros - Estat´ıstica B´asica - a arte de trabalhar com dados - Elsevier

(3) Thurman - Estat´ıstica - Saraiva

(4) Dancey e Reidy - Estat´ıstica sem Matem´atica para Psicologia - Penso

(5) Levine e outros. Estat´ıstica: Teoria e Aplica¸c˜oes.

Referências

Documentos relacionados

Uma amostra com 10 observa¸ c˜ oes de uma vari´ avel aleat´ oria normal forneceu m´ edia de 5,5 e variˆ ancia de 4.. Um criador tem constatado uma propor¸ c˜ ao de 10% do rebanho

Desejamos coletar uma amostra de uma vari´ avel aleat´ oria X com distribui¸ c˜ ao normal de m´ edia desconhecida e variˆ ancia 30.. Qual deve ser o tamanho da amostra para que,

•   O  material  a  seguir  consiste  de  adaptações  e  extensões  dos  originais  gentilmente  cedidos  pelo 

Considera-se que a interdisciplinaridade contribui para uma visão mais ampla do fenômeno a ser pesquisado. Esse diálogo entre diferentes áreas do conhecimento sobre

Exposição no Átrio do Auditório Municipal de Mesão Frio Exposição dos trabalhos feitos nas Oficinas de Origamis para alunos, promovida no dia 13 de Abril de 2011 na

Portanto, o objetivo que norteia este projeto é a análise do tempo decorrido para a entrega dos laudos de ocorrências atendidas entre 01/12/2013 a 31/08/2014 por 34 peritos da

Em sua situação onde não havia fornecimento de poder divino de Scarlet (seu espírito contratado), mesmo para Claire, que era superior, para produzir uma pequena chama, levou toda

“Apresentado que é o ponto da situação dos projectos, informo os Senhores Vereadores que conto com a colaboração de todos e assim aguardo que sejam comunicados até ao final do