Inferˆencia Estat´ıstica: como fazer afirma¸c˜oes sobre uma popula¸c˜ao conhecendo uma amostra da popula¸c˜ao?
Referˆencia: Bussab e Morettin - Estat´ıstica B´asica - Editora Saraiva - Cap´ıtulos 10 e 11.
Introdu¸c˜ao
O uso de informa¸c˜oes de uma amostra para concluir sobre o todo faz parte da atividade di´aria da maioria das pessoas.
Observe como uma dona de casa verifica se o feij˜ao est´a bom de sal. Ou ainda, observe quando um cliente de supermercado, ap´os pro-var uma uva rosada na se¸c˜ao de horti-fruti, decide se vai comprar ou n˜ao dessas uvas. Es-sas decis˜oes s˜ao baseadas em procedimentos amostrais.
Conceitos Importantes
Popula¸c˜ao: ´e o conjunto de todos os elemen-tos sob investiga¸c˜ao com pelo menos uma ca-racter´ıstica em comum.
Amostra: ´e qualquer subconjunto n˜ao-vazio da popula¸c˜ao.
Parˆametro: Caracter´ıstica num´erica da po-pula¸c˜ao.
Estat´ıstica: Caracter´ıstica num´erica da amos-tra.
Observe que aqui o uso da palavra estat´ıstica tem outro significado.
Com o conceito que acabamos de apresentar podemos dizer que usamos estat´ısticas para es-timar parˆametros.
Um estimador de um parˆametro ´e uma es-tat´ıstica.
Uma quest˜ao importante na Inferˆencia Estat´ ısti-ca ´e a de como avaliar um estimador.
Problemas de Inferˆencia
• Verifica¸c˜ao do tempo de vida m´edio da lˆampada fluorescente especificado pelo fa-bricante. Essa verifica¸c˜ao pode fazer parte de
1. um procedimento de controle de qua-lidade da empresa - se o tempo m´edio de vida da amostra retirada de um lote de tais lˆampadas n˜ao atender `a especi-fica¸c˜ao estabelecida, ent˜ao todo o lote deve ser rejeitado;
2. um procedimento de um ´org˜ao de de-fesa do consumidor - se o tempo m´edio de vida de uma amostra de tais lˆampadas obtidas de diversos pontos de venda aten-der `a especifica¸c˜ao do fabricante, ent˜ao a reclama¸c˜ao dos consumidores n˜ao de-ver´a ser aceita.
• Avalia¸c˜ao de um novo produto. Antes do lan¸camento, o novo produto ser´a distribu´ ı-do a um grupo de consumiı-dores potenci-ais que responder˜ao um question´ario. Se os resultados dos question´arios mostrarem que o novo produto foi bem aceito, ent˜ao o grupo de marketing ter´a suporte para de-fender o lan¸camento do novo produto.
• Previs˜ao do tempo m´edio de espera dos clientes no caixa de um banco. Se o tempo m´edio de espera de uma amostra de clientes for maior que o tempo m´edio afirmado pelo gerente da agˆencia, ent˜ao ser´a bastante prov´avel que as reclama¸c˜oes dos clientes tenham fundamento.
• H´a raz˜oes para supor que o tempo de rea-¸
c˜ao Y a certo est´ımulo visual depende da idade do indiv´ıduo. Suponha que essa de-pendˆencia seja linear.
Para verificar se essa suposi¸c˜ao ´e verdadeira, obtiveram-se 20 dados da seguinte forma: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres. Dentro de cada grupo, de homens e mulheres, foram sele-cionadas duas pessoas das seguintes faixas de idade: 20, 25, 30, 35 e 40 anos.
Cada pessoa foi submetida ao teste e seu tempo de rea¸c˜ao y foi registrado.
A popula¸c˜ao poderia ser considerada como formada por todas aquelas pessoas que vies-sem a ser submetidas ao teste, segundo o sexo e a idade. A amostra ´e formada pelas 20 medidas de tempos de rea¸c˜ao.
• Previs˜ao da popula¸c˜ao brasileira por gˆenero e idade a fim de formular pol´ıticas p´ublicas para os pr´oximos 40 anos.
Existem diversos modelos de previs˜ao de tamanho de popula¸c˜ao. Diversos fatores interferem na dinˆamica da popula¸c˜ao. Na quinta-feira, dia 29 de agosto de 2013, o IBGE divulgou que no Brasil j´a s˜ao 201 milh˜oes de habitantes e tamb´em apresen-tou uma previs˜ao sobre a popula¸c˜ao por gˆenero e idade at´e 2060.
A popula¸c˜ao total projetada para o Brasil em 2013 foi de 201,0 milh˜oes de habitantes, atingindo 212,1 milh˜oes em 2020, at´e alcan¸car o m´aximo de 228,4 milh˜oes em 2042, quando come¸car´a a decrescer, atingindo o valor de 218,2 em 2060, n´ıvel equiva-lente ao projetado para 2025 (218,3 milh˜oes).
• Estudo revela que a estatura m´edia dos homens eu-ropeus aumentou 11 cm entre 1870 e 1980 Em O Globo, 04/09/2013.
LONDRES - A estatura m´edia dos homens europeus aumen-tou 11 cent´ımetros, de 167 a 178, em pouco mais de um s´eculo, segundo resultados de uma pesquisa da Universidade de Essex, do Reino Unido. No estudo foram analisados dados da estatura dos homens com 20 anos de 15 pa´ıses europeus entre 1870 e 1980. A an´alise se limitou a homens, segundo a pesquisa, porque os dados de mulheres s˜ao mais dif´ıceis de se conseguir. Durante as ´ultimas d´ecadas, a informa¸c˜ao foi obtida principalmente em levantamentos de estatura de soldados. N˜ao houve grande diferen¸ca entre os pa´ıses. O es-tudo revela que muitos pa´ıses europeus, entre eles a Gr˜a Bre-tanha e a Irlanda, os pa´ıses escandinavos, Holanda, ´Austria, B´elgica e Alemanha, tiveram “clara acelera¸c˜ao” do ritmo de crescimento durante as duas guerras mundiais e a Grande Depress˜ao. Fato que os autores consideram “surpreendente”, j´a que ´e o per´ıodo anterior aos grandes avan¸cos da medicina moderna e da implementa¸c˜ao dos servi¸cos nacionais de sa´ude. O aumento da estatura humana ´e um indicador chave para a melhora da sa´ude da popula¸c˜ao, afirmou ao “El Pa´ıs”, Timo-thy Hatton, professor de Economia da Universidade de Essex e diretor do estudo. Na opini˜ao dele, uma raz˜ao poss´ıvel para este aumento, al´em da diminui¸c˜ao da mortalidade infantil, poderia ser a forte tendˆencia de redu¸c˜ao de fecundidade.
Como selecionar uma amostra?
As observa¸c˜oes contidas numa amostra s˜ao tanto mais informativas sobre a popula¸c˜ao, quan-to mais conhecimenquan-to tivermos dessa mesma popula¸c˜ao.
Por exemplo a an´alise quantitativa de gl´obulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente d´a a ideia geral da quantidade de gl´obulos brancos no corpo todo, pois sabe-se que a distribui¸c˜ao dos gl´obulos brancos ´e homogˆenea, e de qualquer lugar que se tivesse retirado a amostra ela seria “representativa”.
Nem sempre a escolha de uma amostra ade-quada ´e imediata.
Em Bussab e Morettin, os procedimentos de levantamento de dados s˜ao apresentados nos seguintes trˆes grupos.
1. Levantamentos Amostrais - a amostra ´e obtida de uma popula¸c˜ao bem definida, por meio de processos bem protocolados e contro-lados pelo pesquisador.
Tais levantamentos costumam ser subdividi-dos em dois subgrupos: probabil´ısticos e n˜ ao-probabil´ısticos. O primeiro re´une todas as t´ ec-nicas que usam mecanismos aleat´orios de sele-¸
c˜ao dos elementos de uma amostra, atribuindo a cada um deles, uma probabilidade, conhecida a priori, de pertencer `a amostra.
No segundo grupo est˜ao os demais procedi-mentos, tais como amostras intencionais, nas quais os elementos s˜ao selecionados com o aux´ılio de especialistas, e amostras de volunt´ a-rios, como ocorre em alguns testes sobre novos medicamentos e vacinas.
A grande vantagem dos procedimentos proba-bil´ısticos ´e poder medir a precis˜ao da amostra obtida.
2. Planejamento de Experimentos. Tˆem como principal objetivo analisar o efeito de uma vari´ a-vel sobre outra(s). Requer interferˆencias do pesquisador sobre o ambiente em estudo (po-pula¸c˜ao), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.
Exemplo: A altura de um produto na gˆondola de um supermercado afeta as vendas do pro-duto? Se sim, como?
3. Levantamentos Observacionais. Os da-dos s˜ao coletados sem que o pesquisador te-nha controle sobre as informa¸c˜oes obtidas, ex-ceto eventualmente sobre poss´ıveis erros gros-seiros. As s´eries de dados temporais s˜ao e-xemplos t´ıpicos desses levantamentos.
Exemplo: suponha o problema de prever as vendas futuras numa empresa em fun¸c˜ao das vendas passadas. O pesquisador n˜ao pode se-lecionar dados, esses s˜ao as vendas efetiva-mente ocorridas.
Observe que aqui tamb´em se encaixa o pro-blema de proje¸c˜oes de tamanhos populacionais.
Amostra Aleat´oria Simples(AAS)
Uma amostra aleat´oria simples ocorre quando atribu´ımos probabilidades de sele¸c˜ao na amos-tra iguais para todos os elementos da popula-¸
c˜ao.
Com rela¸c˜ao `a precis˜ao neste tipo de amostra-gem existe diferen¸ca se a sele¸c˜ao ´e feita com reposi¸c˜ao ou sem reposi¸c˜ao.
No entanto, quando o tamanho da amostra for muito inferior ao tamanho da popula¸c˜ao (menor que 5% da popula¸c˜ao) a sele¸c˜ao sem reposi¸c˜ao comporta-se, de modo aproximado, como uma sele¸c˜ao com reposi¸c˜ao, e nesse caso costuma-se tratar o problema como se fosse com reposi¸c˜ao.
Distribui¸c˜ao Amostral
No in´ıcio da aula falamos em usar estat´ısticas para estimar um parˆametro.
Na pr´atica s´o podemos obter uma amostra da popula¸c˜ao e, com base nela, tirar conclus˜oes sobre a popula¸c˜ao.
Como poderemos fazer afirma¸c˜oes sobre a qua-lidade das nossas conclus˜oes? Como podere-mos falar sobre o erro decorrente da variabili-dade amostral?
A resposta a essas perguntas envolve o con-ceito de distribui¸c˜ao amostral.
Suponha o problema de estimar um parˆametro θ de certa popula¸c˜ao e que para isso dismos de uma adismostra de tamanho n dessa po-pula¸c˜ao: x1, x2, ..., xn. Suponha tamb´em que usaremos uma estat´ıstica T fun¸c˜ao da amostra para estimar θ.
T = t(x1, x2, ..., xn)
T pode ser a soma (
n X i=1
xi), a m´edia (¯x), a me-diana, a amplitude, o desvio padr˜ao amostral, e sua escolha depender´a do parˆametro que que-remos estimar.
Para poder avaliar a qualidade de T como esti-mador de θ ´e fundamental conhecer o modelo probabil´ısitco que explica a variabilidadde de seus valores, ou seja, a distribui¸c˜ao amostral de T .
A figura a seguir ilustra como poder´ıamos ficticiamente obter essa distribui¸c˜ao.
Mas como poderemos pelo menos fazer um histograma de valores da estat´ıstica se s´o dis-pomos de uma amostra?
O Teorema Central do Limite da Teoria das Probabilidades ´e uma pe¸ca chave para resolver esse problema.
Vamos simplificar o problema de estima¸c˜ao de um parˆametro gen´erico θ para um problema espec´ıfico de estima¸c˜ao da m´edia populacional, µ.
Para isso dispomos de uma amostra aleat´oria de tamanho n da popula¸c˜ao cujos valores ob-servados s˜ao x1, x2, ..., xn.
No que segue usaremos: µ para a m´edia da popula¸c˜ao e
σ2 para a variˆancia da popula¸c˜ao (σ - desvio padr˜ao da popula¸c˜ao).
Um estimador natural de µ a ser usado ´e a m´edia amostral ¯x.
O Teorema Central do Limite (TCL) afirma: Se X1, X2,..., Xn ´e uma amostra aleat´oria sim-ples de uma popula¸c˜ao qualquer cuja m´edia ´e µ e variˆancia ´e σ2, a distribui¸c˜ao amostral de ¯X = 1
n
n X i=1
Xi, a m´edia amostral, se apro-xima de uma distribui¸c˜ao normal com m´edia µ e variˆancia σ
2
n quando n cresce.
Ou seja, para n suficientemente grande, ¯ X ∼ Na µ, σ 2 n ! ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1)
Para entender melhor esse resultado vamos a-presentar alguns exemplos.
Situa¸c˜ao 1: Suponha uma popula¸c˜ao Uniforme em [0,5]: sua densidade ´e constante no in-tervalo dado. O valor esperado de uma po-pula¸c˜ao uniforme em [0,5] ´e 2,5 e a variˆancia ´e 25/12 ' 2, 08.
Agora vamos sortear 100 amostras aleat´orias de tamanho 2 e calcular as respectivas m´edias amostrais. A figura a seguir mostra um his-tograma dos 100 valores obtidos.
Os histogramas a seguir mostram os compor-tamentos da m´edia amostral para 100 amostras de tamanho 5, 10, 15 e 25 de uma popula¸c˜ao uniforme em [0,5].
Como ´e poss´ıvel perceber, a medida que au-mentamos o tamanho da amostra, a variabi-lidade dos valores da m´edia amostral se torna cada vez mais sim´etrica em torno de 2,5 (a m´edia da popula¸c˜ao) e que a variabilidade em torno da m´edia diminui.
Para amostras de popula¸c˜oes uniformes, consi-deram-se tamanhos amostrais moderados para usar o TCL. Para n = 15 a aproxima¸c˜ao j´a ´e boa. No entanto, se a distribui¸c˜ao popu-lacional for muito afastada de uma normal, por exemplo com forte assimetria positiva, ser´a necess´ario um tamanho amostral bem superior a 15 para que a aproxima¸c˜ao seja considerada boa.
Suponha uma popula¸c˜ao com o seguinte com-portamento.
Aqui foi escolhida uma popula¸c˜ao cuja m´edia ´e 0,04, mas que apresenta assimetria positiva.
Histogramas dos valores de ¯x para 200 amostras de tamanhos 5, 20, 30 e 40.
Mas como saber quando o tamanho amostral ´e adequado ou n˜ao para usar o TCL?
Vocˆe n˜ao precisar´a se preocupar com isso. Em geral, o uso do TCL ´e considerado adequado para amostras de tamanho maior ou igual a 30, independentemente da forma original da popula¸c˜ao.
O desvio padr˜ao da distribui¸c˜ao amostral da m´edia, igual a √σ
n, ´e chamado de erro padr˜ao
de ¯X. Ele fornece uma medida do grau com que as m´edias amostrais se desviam do valor esperado de sua distribui¸c˜ao (que coincide com a m´edia populacional µ).
Logo, podemos usar essa informa¸c˜ao para des-cobrir o qu˜ao precisa ´e a nossa estimativa da m´edia da popula¸c˜ao.
Vejamos um exemplo te´orico. Suponha que uma popula¸c˜ao, caracterizada por uma vari´avel aleat´oria X, tenha distribui¸c˜ao normal com m´ e-dia 10 e variˆancia 100.
X ∼ N ( 10 |{z} =µ , 100 | {z } =σ2 )
Suponha tamb´em que iremos trabalhar com amostras aleat´orias de tamanho n = 16. Como fica a distribui¸c˜ao amostral de ¯X, a m´edia amos-tral?
Aqui cabe comentar que no caso de popula¸c˜oes normais, n˜ao ´e necess´ario usar o TCL, pois a distribui¸c˜ao amostral de ¯X ´e, de fato, uma normal. Assim, temos ¯ X ∼ N µ, σn2 = N (10, 6.25).
Veja o gr´afico dessa distribui¸c˜ao (em vermelho destaca-se a distribui¸c˜ao da popula¸c˜ao).
Como ´e poss´ıvel ver a distribui¸c˜ao amostral da m´edia ´e muito mais concentrada em torno de seu valor esperado do que a distribui¸c˜ao da popula¸c˜ao.
Calcule, por exemplo, agora P (−5 < ¯X < 15) e compare com P (−5 < X < 15)
Usando o Excel:
P (−5 < X < 15) = normdist(15; 10; 10; true)−normdist(−5; 10; 10; true) ' 0.8664
P (−5 < ¯X < 15) = normdist(15; 10; 2.5; true)−normdist(−5; 10; 2.5; true) ' 1−
A nota¸c˜ao 1− foi usada para indicar que a probabilidade ´e quase igual a 1, mas ´e menor que 1.
Vimos que entre ±1, 96 desvios da m´edia o gr´afico da distribui¸c˜ao normal compreende 95% dos valores. Qual deveria ser o tamanho da amostra se desej´assemos que em 95% das vezes a m´edia amostral ca´ısse entre 10 ± 2, isto ´e, entre 8 e 12? 0, 95 = P (8 < ¯X < 12) = P 8−10 10/√n < Z < 12−10 10/√n = = P −0, 2√n < Z < 0, 2√n = 2φ(0, 2√n) − 1 Logo, φ(0, 2√n) = 0, 975 e, usando a tabela da normal pard˜ao 0, 2√n = 1, 96.
√
n = 1, 96
0, 2 ↔ n = (9, 8)
2 ' 96.
Antes de prosseguir, vamos enumerar os prin-cipais resultados apresentados at´e aqui.
Sejam
X uma popula¸c˜ao com m´edia µ e variˆancia σ2; X1, X2, ..., Xn uma amostra aleat´oria de tamanho n da popula¸c˜ao; ¯ X = 1n n X i=1 Xi a m´edia amostral.
Ent˜ao, o valor esperado, ou simplesmente a m´edia, da distribui¸c˜ao de ¯X ´e dado por
E[ ¯X] = µ e, a variˆancia, por Var( ¯X) = σ
2
n . O erro-padr˜ao (desvio padr˜ao) de ¯X: σX¯ = √σ
Se a popula¸c˜ao for normal, ¯
X ∼ N (µ, σ
2
n )
qualquer que seja n; ou equivalentemente, ¯
X − µ
σ/√n ∼ N (0, 1).
Se a popula¸c˜ao n˜ao for normal, segue, do TCL, que para n ≥ 30, ¯ X ∼ N (µ,a σ 2 n ) ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1).
Nos problemas reais o valor de σ tamb´em n˜ao ´e conhecido. Portanto, ser´a necess´ario, usando a amostra dispon´ıvel, estimar seu valor.
Observe que como o erro padr˜ao de ¯X σX¯ = √σ n
!
´e inversamente proporcional ao tamanho da amostra, isso significa que quanto maior for o tamanho amostral, menor ser´a a variabilidade das m´edias amostrais e, portanto, mais precisa ser´a a nossa estimativa da m´edia populacional. O mesmo deve ser esperado para estimativas do desvio padr˜ao populacional σ: quanto maior for a amostra, mais precisas ser˜ao as nossas estimativas.
Se X1, X2, ..., Xn ´e a amostra observada, esti-mamos a variˆancia da popula¸c˜ao σ2 pela va-riˆancia amostral S2 = 1
n−1 n X i=1 (Xi − ¯X)2 e, σ por S = √ S2.
Assim, para amostras grandes n ≥ 30, se σ2 ´e desconhecido, usamos uma estimativa dada por s e aplicamos o TCL ¯ X − µ S/√n a ∼ N (0, 1) . com S estimador de σ. E se n < 30? Como proceder?
Vamos come¸car essa discuss˜ao com um exem-plo particular de estima¸c˜ao de uma propor¸c˜ao populacional.
Seja X1, X2,..., Xn uma amostra aleat´oria da distribui¸c˜ao binomial(1, p) tal que cada Xi ´e 0 ou 1 com probabilidades 1 − p ou p respecti-vamente. Suponha que p seja desconhecida e represente uma propor¸c˜ao de interesse.
Lembre que no modelo binomial(1, p) tem-se valor esperado µ = p e variˆancia σ2 = p(1 − p).
Observe que nesse contexto ¯X = ˆp ´e a pro-por¸c˜ao amostral de “sucessos”. ´E natural usar a propor¸c˜ao amostral (que ´e uma m´edia) como estimador da propor¸c˜ao populacional.
Se n ´e grande podemos usar o TCL tal que
ˆ p ∼ Na p |{z} =µ , p(1 − p) n | {z } =σ2n .
Por´em, para valores moderados de n e de-pendendo do verdadeiro valor de p essa apro-xima¸c˜ao poder´a n˜ao ser boa.
No entanto, nesse contexto particular, ´e f´acil ver que nˆp ∼ binomial(n, p), pois representar´a o n´umero de sucessos em n Ensaios de Bernoulli com probabilidade de sucesso p.
Assim, a distribui¸c˜ao exata de ˆp ´e uma binomial multiplicada por um fator 1/n.
Exemplo: Um professor d´a um teste de 20 quest˜oes do tipo certo ou errado. Para tes-tar a hip´otese de o estudante estar chutando a resposta, ele adota a seguinte regra de de-cis˜ao: “Se 13 ou mais quest˜oes estiverem cor-retas, ele decide que o estudante n˜ao chutou as quest˜oes do teste”. Qual ´e a probabilidade de rejeitarmos a hip´otese, sendo ela de fato verdadeira?
Solu¸c˜ao: Se a hip´otese ´e de fato verdadeira observe que o estudante ir´a acertar cada uma das 20 quest˜oes com probabilidade 1/2. Re-jeitamos a hip´otese se o n´umero de acertos ´e maior ou igual a 13.
Seja X o n´umero de acertos. Queremos cal-cular P (X ≥ 13 dado que p = 1/2). Observe que nesse caso, X ∼ binomial(20, 1/2).
Vamos usar o Bioestat para calcular essa pro-babilidade.
Depois de abrir o programa, escolha no menu horizontal superior Estat´ısticas e, depois Dis-tribui¸c˜oes de Probabilidade. Em seguida, clique na op¸c˜ao binomial.
Basta ent˜ao informar n = 20, k = 13 e pro-por¸c˜ao esperada igual a 1/2.
Assim,
P (X ≥ 13) = P (X = 13) + P (X > 13) = = 0, 0739 + 0, 0577 = 0, 1316
tal que h´a uma probabilidade de cerca de 13% de rejeitar a hip´otese de que o aluno est´a chu-tando as respostas do teste dado que de fato ele chutou.
No Excel usa-se
= 1 − distr.binom(12; 20; 0, 5; verdadeiro) que retorna o valor 0,131587982' 0, 13.
Qual deveria ser a regra se desej´assemos que essa probabilidade fosse no m´aximo igual a 5%?
Para responder a pergunta podemos ir aumen-tando o valor de k na tela binomial do Bioestat at´e a primeira vez que P (X ≥ k) seja inferior a 0,05.
Por exemplo, se aumentarmos para k=14, obte-remos P (X ≥ 14) = 0.0577 que ainda ´e maior que 0,05.
Vejamos ent˜ao com k = 15. Agora temos P (X ≥ 15) = 0, 0207. Logo a resposta ser´a “Devemos rejeitar a hip´otese de que o aluno est´a chutando as respostas, se o n´umero de acertos for maior ou igual a 15.”
Observe que como o problema envolve uma vari´avel aleat´oria discreta, n´umero de acertos, pode n˜ao existir uma solu¸c˜ao exata para proba-bilidades fixadas. Fixamos a probabilidade em 5%, mas vimos que ou a regra ´e para 14 acer-tos e a probabilidade ´e cerca de 6%(5,77%) ou para 15, e a probabilidade ´e cerca de 2%(2,07%).
Agora vamos ver como fica o caso de amostras moderadas de uma vari´avel aleat´oria cont´ınua. Suponha que dispomos de uma amostra aleat´ o-ria de tamanho moderado (n < 30) de uma vari´avel aleat´oria X cont´ınua.
Nesse caso, h´a uma solu¸c˜ao similar quando a vari´avel aleat´oria sob considera¸c˜ao tem uma distribui¸c˜ao normal. Por´em, se claramente n˜ao for razo´avel supor a normalidade da vari´avel em estudo, a solu¸c˜ao que iremos apresentar n˜ao ser´a adequada.
Uma poss´ıvel forma de lidar com dados n˜ao normais ´e transform´a-los.
Por exemplo, para dados positivos com assime-tria `a direita, costuma-se usar a transforma¸c˜ao logar´ıtmica. Se com a transforma¸c˜ao, a su-posi¸c˜ao de normalidade for razo´avel, podemos trabalhar na escala transformada, lembrando depois de voltar `a escala original na hora de apresentarmos nossas conclus˜oes.
Existem t´ecnicas de inferˆencia estat´ıstica n˜ ao-param´etrica que n˜ao requerem a suposi¸c˜ao da forma da distribui¸c˜ao da popula¸c˜ao que tam-b´em podem ser usadas para o caso n˜ao-normal com amostras moderadas.
Veremos agora a solu¸c˜ao para o caso: amos-tras moderadas de uma popula¸c˜ao normal com m´edia µ e desvio padr˜ao σ desco-nhecidos.
Para isso, vamos enunciar primeiro um impor-tante resultado para amostras da distribui¸c˜ao normal.
Seja X1, X2, ..., Xn uma amostra da distribui¸c˜ao N (µ, σ2).
Ent˜ao, 1. X ∼ N µ,¯ σ2 n ; 2. S2 = 1 n−1 n X i=1
(Xi − ¯X)2 e ¯X s˜ao vari´aveis aleat´orias
independentes; 3. n−1
σ2 S
2 tem uma distribui¸c˜ao de qui-quadrado com
n − 1 graus de liberdade (ser´a explicado adiante) e; 4.
T = ¯ X − µ
S/√n
A distribui¸c˜ao t
Tamb´em conhecida como distribui¸c˜ao t de Stu-dent, leva esse nome pois foi publicada por William Sealy Gosset (1876-1937) em 1908 sob o pseudˆonimo de Student, pois Gosset n˜ao podia usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a cerve-jaria Guinness.
A distribui¸c˜ao t, como a normal padr˜ao, tam-b´em tem densidade sim´etrica em torno de zero, por´em apresenta caudas mais pesadas do que a normal padr˜ao. O ´unico parˆametro que a define (ν) caracteriza a sua forma e ´e chamado n´umero de graus de liberdade.
Quanto maior for o valor do parˆametro ν, a distribui¸c˜ao t(ν) se aproximar´a da distribui¸c˜ao normal padr˜ao.
Os dois gr´aficos a seguir ilustram as propriedades citadas da distribui¸c˜ao t.
Como obter probabilidades associadas a dis-tribui¸c˜ao t(ν)?
Da mesma forma que a normal padr˜ao, tamb´em est˜ao dispon´ıveis na maioria dos livros de es-tat´ıstica tabelas da distribui¸c˜ao t. Probabili-dades associadas a distribui¸c˜ao t tamb´em po-dem ser obtidas via programas estat´ısticos. A planilha EXCEL por exemplo fornece probabi-lidades associadas a distribui¸c˜ao t.
Como vimos a distribui¸c˜ao t ´e caracterizada por um parˆametro ν, chamado n´umero de graus de liberdade.
Exemplo: Suponha que se deseja estimar o tempo m´edio para realizar uma tarefa. Para isso sorteou-se uma amostra aleat´oria de 16 oper´arios cujos tempos de realiza¸c˜ao da tarefa, em minutos, foram registrados.
82 102 91 90 87 107 83 78 88 101 99 76 67 87 99 88
Suponha que desejamos determinar um inter-valo sim´etrico em torno da verdadeira m´edia tal que a probabilidade da estat´ıstica T cair entre esses dois valores seja de 95%.
J´a resolvemos um problema similar a esse, mas no contexto da distribui¸c˜ao normal com variˆ an-cia conhecida e vimos que, depois de padronizar, P (−1, 96 < Z < 1, 96) = 0, 95. Observe que agora, apesar de considerarmos a normalidade dos dados, a variˆancia da popula¸c˜ao n˜ao ´e co-nhecida. Logo, usaremos a distribui¸c˜ao t com n − 1 = 16 − 1 = 15 graus de liberdade.
Aqui, a chave para solucionar esse problema ´e usar o resultado
T = ¯
X − µ
No Bioestat, escolhendo o m´odulo distribui¸c˜oes de probabilidade, outras distribui¸c˜oes, distribui-¸
c˜ao t, podemos por tentativas encontrar o valor sim´etrico em torno de zero que produz uma probabilidade de 95% para os valores inter-medi´arios.
Depois de algumas tentativas o Bioestat fornece o valor 2.13, uma aproxima¸c˜ao com duas casas decimais.
No Excel, obtemos esse valor de forma mais direta usando a fun¸c˜ao
= IN V.T ( 0, 975 | {z } probabilidade acumulada ; graus de liberdade z}|{ 15 )
que retorna o valor 2,13145. Logo,
P (−2, 13 < T = ¯
X − µ
Como verificar se a suposi¸c˜ao de normalidade dos dados ´e razo´avel?
Existem ferramentas gr´aficas tais como os gr´ a-ficos de probabilidade normal, que devem ter uma aparˆencia linear, quando os dados de fato s˜ao normais e, os histogramas das distribui¸c˜oes de frequˆencias, que devem ter uma forma uni-modal aproximadamente sim´etrica em torno da m´edia.
Tamb´em existem v´arios testes estat´ısticos de verifica¸c˜ao da suposi¸c˜ao de normalidade. Va-mos deixar esta discuss˜ao para uma aula pos-terior `a pr´oxima, na qual trabalharemos com as primeiras idieas de testes de hip´oteses e alguns testes mais simples.
Intervalos de Confian¸ca
Vamos come¸car com um exemplo. Suponha que se deseja estimar a m´edia µ de uma po-pula¸c˜ao qualquer e que para isso usaremos a m´edia amostral ¯X de uma amostra aleat´oria de tamanho n. Usando o TCL, supondo n ≥ 30 temos que ¯ X − µ σ/√n a ∼ N (0, 1).
Logo, usando a tabela da normal padr˜ao, pode-mos escrever, por exemplo,
P (−1, 96 < ¯ X − µ σX¯ < 1, 96) = 0, 95 com σX¯ = √σ n.
Por meio de opera¸c˜oes alg´ebricas, ´e poss´ıvel reescrever a equa¸c˜ao anterior na forma
P X − 1, 96σ¯ X¯ < µ < 1, 96σX¯ = 0, 95
e, essa equa¸c˜ao nos fornece os limites de 95% de confian¸ca de µ, a saber,
¯
X ± 1, 96σX¯
Nota¸c˜ao: IC(µ, 0.95) : X ± 1, 96σ¯ X¯
com σX¯ = √σ n.
Interpreta¸c˜ao do intervalo: a figura a seguir ´e ´
util na interpreta¸c˜ao.
Resumindo: Se pud´essemos construir uma quan-tidade grande de intervalos da forma ¯X±1, 96σX¯, todos baseados em amostras aleat´orias de tama-nho n da popula¸c˜ao, 95% deles conteriam o parˆametro µ.
No exemplo que acabamos de apresentar, 95% ´e dito ser o n´ıvel ou coeficiente de confian¸ca do intervalo.
´
E claro que podemos usar um n´ıvel de con-fian¸ca qualquer e que, em geral far´a sentido, n´ıveis de confian¸ca altos, pr´oximos de 1.
1,96 ´e o quantil da distribui¸c˜ao normal padr˜ao tal que P (−1, 96 < Z < 1, 96) = 0, 95.
Vamos adotar a seguinte nota¸c˜ao seja z(γ) tal que
P (−z(γ) < Z < z(γ)) = γ, 0 < γ < 1.
Observe que com essa nota¸c˜ao z(0.95) = 1, 96. E tamb´em que um intervalo de n´ıvel de con-fian¸ca γ para µ ´e dado por ¯X ± z(γ)σX¯.
Intervalos de Confian¸ca com n´ıvel de confian¸ca γ para a m´edia populacional
1. Amostras da distribui¸c˜ao normal ou amostras suficientemente grandes n ≥ 30 IC(µ, γ) : X¯ |{z} m´edia amostral ±z(γ) √σ n | {z } erro padr˜ao
Observa¸c˜ao: se o valor de σ n˜ao for conhecido substitua-o na express˜ao acima por uma esti-mativa.
2. Amostras da distribui¸c˜ao normal, σ desco-nhecido, n < 30 IC(µ, γ) : X¯ |{z} m´edia amostral ±t(γ,n−1) √s n | {z } erro padr˜ao de ¯X
Em (2) na tela anterior a nota¸c˜ao t(γ,n−1) ´e similar `a nota¸c˜ao usada na distribui¸c˜ao normal, conforme a figura a seguir. A diferen¸ca ´e que agora usamos uma distribui¸c˜ao t com n − 1 graus de liberdade.
Intervalos de Confian¸ca para a propor¸c˜ao po-pulacional
No caso de intervalos para a propor¸c˜ao, se fos-semos usar a express˜ao dada em (1) ter´ıamos
IC(p, γ) : pˆ |{z} propor¸c˜ao amostral ±z(γ) q p(1 − p) √ n | {z } erro padr˜ao de ˆp
No entanto o valor de p n˜ao ´e conhecido e aparece na express˜ao do erro padr˜ao. Nesse contexto costuma-se adotar duas estrat´egias. A primeira, conservadora, trabalha com o pior cen´ario poss´ıvel e substitui p na f´ormula do erro padr˜ao por 1/2, que produz o intervalo mais largo poss´ıvel.
A segunda , que pode ser usada para tamanhos amostrais suficientemente grandes, substitui p por ˆp.
Assim temos, Alternativa conservadora: IC(p, γ) : ˆp ± z(γ) s 1 4n Outra alternativa: IC(p, γ) : ˆp ± z(γ) q ˆ p(1 − ˆp) √ n
Exemplo 1: (Pinheiro e outros - Estat´ıstica B´asica: a arte de trabalhar com dados - Cap. 7- ex. 7.6)
Levando em conta simultaneamente as respos-tas dadas por 200 clientes de uma empresa a todos os itens de um question´ario, foi calcu-lado um ´ındice de satisfa¸c˜ao global correspon-dente a cada responcorrespon-dente. Este ´ındice varia de 0 (totalmente insatisfeito) a 100 (totalmente satisfeito). Com respeito a esse ´ındice de sa-tisfa¸c˜ao foi constru´ıdo um intervalo de 95% de confian¸ca para o n´ıvel m´edio de satisfa¸c˜ao da popula¸c˜ao de clientes dessa empresa e que resultou nos seguintes limites
IC(µ, 95%) : (43, 5 ; 63, 9).
Quais das afirma¸c˜oes a seguir est˜ao corretas e quais n˜ao est˜ao? Justifique cada uma de suas respostas.
(a) A probabilidade de que µ esteja entre 43,5 e 63,9 ´e 95%.
(b) Se fosse extra´ıda uma outra amostra, tam-b´em com 200 clientes, a probabilidade de a m´edia amostral dos ´ındices de satisfa¸c˜ao ob-servados cairem entre 43,5 e 63,9 ´e 95%.
(c) Se fossem extra´ıdas 100 amostras de tama-nho 200 e se usasse o mesmo procedimento que deu origem ao intervalo apresentado no enunciado para cada amostra, cerca de 95% dos intervalos obtidos conteriam o valor de µ. (d) O desvio padr˜ao populacional do ´ındice de satisfa¸c˜ao ´e aproximadamente igual a 5,1.
(e) Todos os entrevistados apresentaram ´ındices de satisfa¸c˜ao entre 43,5 e 63,9.
Exemplo 2: (Dancey e Reidy - Estat´ıstica sem Matem´atica para Psicologia. Cap´ıtulo 4. Ex-erc´ıcio 2)
O Dr. Doolittle finalmente desistiu da ideia de conversar com animais e decidiu tornar-se um psic´ologo experimental de animais. Ele est´a particularmente interessado em descobrir se os gatos s˜ao ou n˜ao mais inteligentes que os ca-chorros. Para isso ele desenvolveu um teste de inteligˆencia espec´ıfico para esse estudo e testa amostras de gatos e cachorros. Ele foi cuida-doso para n˜ao introduzir qualquer tipo de v´ıcio no teste e acredita que criou um teste que n˜ao est´a associado `as esp´ecies, ou seja, pode ser u-sado em qualquer esp´ecie. Dr, Dotlittle espera que exista uma diferen¸ca entre os escores de gatos e cachorros. No experimento ele traba-lhou com duas amostras aleat´orias de 10 gatos e 10 cachorros e, os resultados obtidos, est˜ao na tabela a seguir.
gatos cachorros 95 116 100 112 104 102 78 96 130 89 111 124 89 131 114 117 102 107 97 110
1. Construa intervalos de confian¸ca de 95% de confian¸ca para os escores m´edios de gatos e de cachorros.
2. Que suposi¸c˜oes vocˆe usou para construir os intervalos do item anterior?
3. Vocˆe diria que o Dr. Doolittle est´a cor-reto? Por que?
Exemplo 3: (Levine e outros - Estat´ıstica: Teo-ria e Aplica¸c˜oes - Cap. 6 - exerc´ıcio 6.56)
O diretor de pessoal de uma grande corpora¸c˜ao deseja estudar o absente´ısmo dos trabalhadores administrativos do escrit´orio central da cor-pora¸c˜ao durante o ano. Uma amostra aleat´ o-ria de 25 empregados administrativos revelou o seguinte:
• ¯x = 9, 7 dias, s = 4 dias
• 12 trabalhadores administrativos estiveram ausentes mais de 10 dias.
(a) Construa um intervalo de 99% de con-fian¸ca, para o n´umero m´edio de ausˆencias de trabalhadores administrativos no ano pasado. (b) Construa um intervalo de 95% de con-fian¸ca para a propor¸c˜ao de trabalhadores ad-ministrativos que estiveram ausentes por mais de 10 dias durante o ano passado.
Referˆencias bibliogr´aficas:
(1) Busssab e Morettin - Estat´ıstica B´asica. Editora Saraiva
(2) Pinheiro e outros - Estat´ıstica B´asica - a arte de trabalhar com dados - Elsevier
(3) Thurman - Estat´ıstica - Saraiva
(4) Dancey e Reidy - Estat´ıstica sem Matem´atica para Psicologia - Penso
(5) Levine e outros. Estat´ıstica: Teoria e Aplica¸c˜oes.