Inferência Estatística: como fazer afirmações sobre uma população conhecendo uma amostra

(1)

Inferência Estat´ıstica: como fazer afirma¸cões sobre uma popula¸cão conhecendo uma amostra da popula¸cão?

Referˆencia: Bussab e Morettin - Estat´ıstica B´asica - Editora Saraiva - Cap´ıtulos 10 e 11.

Introdu¸c˜ao

O uso de informa¸c˜oes de uma amostra para concluir sobre o todo faz parte da atividade di´aria da maioria das pessoas.

Observe como uma dona de casa verifica se o feijão está bom de sal. Ou ainda, observe quando um cliente de supermercado, após pro-var uma uva rosada na se¸cão de horti-fruti, decide se vai comprar ou não dessas uvas. Es-sas decisões são baseadas em procedimentos amostrais.

(2)

Conceitos Importantes

Popula¸cão: é o conjunto de todos os elemen-tos sob investiga¸cão com pelo menos uma ca-racter´ıstica em comum.

Amostra: é qualquer subconjunto não-vazio da popula¸cão.

Parâmetro: Caracter´ıstica numérica da po-pula¸cão.

Estat´ıstica: Caracter´ıstica num´erica da amos-tra.

(3)

Observe que aqui o uso da palavra estat´ıstica tem outro significado.

Com o conceito que acabamos de apresentar podemos dizer que usamos estat´ısticas para es-timar parˆametros.

Um estimador de um parˆametro ´e uma es-tat´ıstica.

Uma questão importante na Inferência Estat´ ısti-ca é a de como avaliar um estimador.

(4)

Problemas de Inferˆencia

• Verifica¸cão do tempo de vida médio da lâmpada fluorescente especificado pelo fa-bricante. Essa verifica¸cão pode fazer parte de

1. um procedimento de controle de qua-lidade da empresa - se o tempo médio de vida da amostra retirada de um lote de tais lâmpadas não atender à especi-fica¸cão estabelecida, então todo o lote deve ser rejeitado;

2. um procedimento de um órgão de de-fesa do consumidor - se o tempo médio de vida de uma amostra de tais lâmpadas obtidas de diversos pontos de venda aten-der à especifica¸cão do fabricante, então a reclama¸cão dos consumidores não de-verá ser aceita.

(5)

• Avalia¸cão de um novo produto. Antes do lan¸camento, o novo produto será distribu´ ı-do a um grupo de consumiı-dores potenci-ais que responderão um questionário. Se os resultados dos questionários mostrarem que o novo produto foi bem aceito, então o grupo de marketing terá suporte para de-fender o lan¸camento do novo produto.

• Previsão do tempo médio de espera dos clientes no caixa de um banco. Se o tempo médio de espera de uma amostra de clientes for maior que o tempo médio afirmado pelo gerente da agência, então será bastante provável que as reclama¸cões dos clientes tenham fundamento.

(6)

• H´a raz˜oes para supor que o tempo de rea-¸

c˜ao Y a certo est´ımulo visual depende da idade do indiv´ıduo. Suponha que essa de-pendˆencia seja linear.

Para verificar se essa suposi¸c˜ao ´e verdadeira, obtiveram-se 20 dados da seguinte forma: 20 pessoas foram selecionadas, sendo 10 homens e 10 mulheres. Dentro de cada grupo, de homens e mulheres, foram sele-cionadas duas pessoas das seguintes faixas de idade: 20, 25, 30, 35 e 40 anos.

Cada pessoa foi submetida ao teste e seu tempo de rea¸c˜ao y foi registrado.

A popula¸cão poderia ser considerada como formada por todas aquelas pessoas que vies-sem a ser submetidas ao teste, segundo o sexo e a idade. A amostra é formada pelas 20 medidas de tempos de rea¸cão.

(7)

• Previsão da popula¸cão brasileira por gênero e idade a fim de formular pol´ıticas públicas para os próximos 40 anos.

Existem diversos modelos de previsão de tamanho de popula¸cão. Diversos fatores interferem na dinâmica da popula¸cão. Na quinta-feira, dia 29 de agosto de 2013, o IBGE divulgou que no Brasil já são 201 milhões de habitantes e também apresen-tou uma previsão sobre a popula¸cão por gênero e idade até 2060.

A popula¸cão total projetada para o Brasil em 2013 foi de 201,0 milhões de habitantes, atingindo 212,1 milhões em 2020, até alcan¸car o máximo de 228,4 milhões em 2042, quando come¸cará a decrescer, atingindo o valor de 218,2 em 2060, n´ıvel equiva-lente ao projetado para 2025 (218,3 milhões).

(8)

• Estudo revela que a estatura m´edia dos homens eu-ropeus aumentou 11 cm entre 1870 e 1980 Em O Globo, 04/09/2013.

LONDRES - A estatura média dos homens europeus aumen-tou 11 cent´ımetros, de 167 a 178, em pouco mais de um século, segundo resultados de uma pesquisa da Universidade de Essex, do Reino Unido. No estudo foram analisados dados da estatura dos homens com 20 anos de 15 pa´ıses europeus entre 1870 e 1980. A análise se limitou a homens, segundo a pesquisa, porque os dados de mulheres são mais dif´ıceis de se conseguir. Durante as últimas décadas, a informa¸cão foi obtida principalmente em levantamentos de estatura de soldados. Não houve grande diferen¸ca entre os pa´ıses. O es-tudo revela que muitos pa´ıses europeus, entre eles a Grã Bre-tanha e a Irlanda, os pa´ıses escandinavos, Holanda, Áustria, Bélgica e Alemanha, tiveram “clara acelera¸cão” do ritmo de crescimento durante as duas guerras mundiais e a Grande Depressão. Fato que os autores consideram “surpreendente”, já que é o per´ıodo anterior aos grandes avan¸cos da medicina moderna e da implementa¸cão dos servi¸cos nacionais de saúde. O aumento da estatura humana é um indicador chave para a melhora da saúde da popula¸cão, afirmou ao “El Pa´ıs”, Timo-thy Hatton, professor de Economia da Universidade de Essex e diretor do estudo. Na opinião dele, uma razão poss´ıvel para este aumento, além da diminui¸cão da mortalidade infantil, poderia ser a forte tendência de redu¸cão de fecundidade.

(9)

Como selecionar uma amostra?

As observa¸cões contidas numa amostra são tanto mais informativas sobre a popula¸cão, quan-to mais conhecimenquan-to tivermos dessa mesma popula¸cão.

Por exemplo a análise quantitativa de glóbulos brancos obtida de algumas gotas de sangue da ponta do dedo de um paciente dá a ideia geral da quantidade de glóbulos brancos no corpo todo, pois sabe-se que a distribui¸cão dos glóbulos brancos é homogênea, e de qualquer lugar que se tivesse retirado a amostra ela seria “representativa”.

Nem sempre a escolha de uma amostra ade-quada ´e imediata.

(10)

Em Bussab e Morettin, os procedimentos de levantamento de dados s˜ao apresentados nos seguintes trˆes grupos.

1. Levantamentos Amostrais - a amostra ´e obtida de uma popula¸c˜ao bem definida, por meio de processos bem protocolados e contro-lados pelo pesquisador.

Tais levantamentos costumam ser subdividi-dos em dois subgrupos: probabil´ısticos e n˜ ao-probabil´ısticos. O primeiro re´une todas as t´ ec-nicas que usam mecanismos aleat´orios de sele-¸

c˜ao dos elementos de uma amostra, atribuindo a cada um deles, uma probabilidade, conhecida a priori, de pertencer `a amostra.

(11)

No segundo grupo est˜ao os demais procedi-mentos, tais como amostras intencionais, nas quais os elementos s˜ao selecionados com o aux´ılio de especialistas, e amostras de volunt´ a-rios, como ocorre em alguns testes sobre novos medicamentos e vacinas.

A grande vantagem dos procedimentos proba-bil´ısticos ´e poder medir a precis˜ao da amostra obtida.

2. Planejamento de Experimentos. Têm como principal objetivo analisar o efeito de uma vari´ a-vel sobre outra(s). Requer interferências do pesquisador sobre o ambiente em estudo (po-pula¸cão), bem como o controle de fatores ex-ternos, com o intuito de medir o efeito dese-jado.

Exemplo: A altura de um produto na gˆondola de um supermercado afeta as vendas do pro-duto? Se sim, como?

(12)

3. Levantamentos Observacionais. Os da-dos são coletados sem que o pesquisador te-nha controle sobre as informa¸cões obtidas, ex-ceto eventualmente sobre poss´ıveis erros gros-seiros. As séries de dados temporais são e-xemplos t´ıpicos desses levantamentos.

Exemplo: suponha o problema de prever as vendas futuras numa empresa em fun¸cão das vendas passadas. O pesquisador não pode se-lecionar dados, esses são as vendas efetiva-mente ocorridas.

Observe que aqui tamb´em se encaixa o pro-blema de proje¸c˜oes de tamanhos populacionais.

(13)

Amostra Aleat´oria Simples(AAS)

Uma amostra aleat´oria simples ocorre quando atribu´ımos probabilidades de sele¸c˜ao na amos-tra iguais para todos os elementos da popula-¸

c˜ao.

Com rela¸cão à precisão neste tipo de amostra-gem existe diferen¸ca se a sele¸cão é feita com reposi¸cão ou sem reposi¸cão.

No entanto, quando o tamanho da amostra for muito inferior ao tamanho da popula¸cão (menor que 5% da popula¸cão) a sele¸cão sem reposi¸cão comporta-se, de modo aproximado, como uma sele¸cão com reposi¸cão, e nesse caso costuma-se tratar o problema como se fosse com reposi¸cão.

(14)

Distribui¸c˜ao Amostral

No in´ıcio da aula falamos em usar estat´ısticas para estimar um parˆametro.

Na prática só podemos obter uma amostra da popula¸cão e, com base nela, tirar conclusões sobre a popula¸cão.

Como poderemos fazer afirma¸c˜oes sobre a qua-lidade das nossas conclus˜oes? Como podere-mos falar sobre o erro decorrente da variabili-dade amostral?

A resposta a essas perguntas envolve o con-ceito de distribui¸c˜ao amostral.

(15)

Suponha o problema de estimar um parâmetro θ de certa popula¸cão e que para isso dismos de uma adismostra de tamanho n dessa po-pula¸cão: x₁, x₂, ..., x_n. Suponha também que usaremos uma estat´ıstica T fun¸cão da amostra para estimar θ.

T = t(x₁, x₂, ..., x_n)

T pode ser a soma (

n X i=1

x_i), a média (¯x), a me-diana, a amplitude, o desvio padrão amostral, e sua escolha dependerá do parâmetro que que-remos estimar.

Para poder avaliar a qualidade de T como esti-mador de θ ´e fundamental conhecer o modelo probabil´ısitco que explica a variabilidadde de seus valores, ou seja, a distribui¸c˜ao amostral de T .

(16)

A figura a seguir ilustra como poder´ıamos ficticiamente obter essa distribui¸c˜ao.

(17)

Mas como poderemos pelo menos fazer um histograma de valores da estat´ıstica se s´o dis-pomos de uma amostra?

O Teorema Central do Limite da Teoria das Probabilidades ´e uma pe¸ca chave para resolver esse problema.

Vamos simplificar o problema de estima¸cão de um parâmetro genérico θ para um problema espec´ıfico de estima¸cão da média populacional, µ.

Para isso dispomos de uma amostra aleatória de tamanho n da popula¸cão cujos valores ob-servados são x₁, x₂, ..., x_n.

No que segue usaremos: µ para a m´edia da popula¸c˜ao e

σ2 para a variância da popula¸cão (σ - desvio padrão da popula¸cão).

Um estimador natural de µ a ser usado ´e a m´edia amostral ¯x.

(18)

O Teorema Central do Limite (TCL) afirma: Se X₁, X₂,..., X_n é uma amostra aleatória sim-ples de uma popula¸cão qualquer cuja média é µ e variância é σ2, a distribui¸cão amostral de ¯X = 1

n

n X i=1

X_i, a média amostral, se apro-xima de uma distribui¸cão normal com média µ e variância σ

2

n quando n cresce.

Ou seja, para n suficientemente grande, ¯ X ∼ Na µ, σ 2 n ! ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1)

Para entender melhor esse resultado vamos a-presentar alguns exemplos.

(19)

Situa¸cão 1: Suponha uma popula¸cão Uniforme em [0,5]: sua densidade é constante no in-tervalo dado. O valor esperado de uma po-pula¸cão uniforme em [0,5] é 2,5 e a variância é 25/12 ' 2, 08.

Agora vamos sortear 100 amostras aleat´orias de tamanho 2 e calcular as respectivas m´edias amostrais. A figura a seguir mostra um his-tograma dos 100 valores obtidos.

(20)

Os histogramas a seguir mostram os compor-tamentos da m´edia amostral para 100 amostras de tamanho 5, 10, 15 e 25 de uma popula¸c˜ao uniforme em [0,5].

(21)

(22)

Como é poss´ıvel perceber, a medida que au-mentamos o tamanho da amostra, a variabi-lidade dos valores da média amostral se torna cada vez mais simétrica em torno de 2,5 (a média da popula¸cão) e que a variabilidade em torno da média diminui.

Para amostras de popula¸cões uniformes, consi-deram-se tamanhos amostrais moderados para usar o TCL. Para n = 15 a aproxima¸cão já é boa. No entanto, se a distribui¸cão popu-lacional for muito afastada de uma normal, por exemplo com forte assimetria positiva, será necessário um tamanho amostral bem superior a 15 para que a aproxima¸cão seja considerada boa.

(23)

Suponha uma popula¸c˜ao com o seguinte com-portamento.

Aqui foi escolhida uma popula¸cão cuja média é 0,04, mas que apresenta assimetria positiva.

(24)

Histogramas dos valores de ¯x para 200 amostras de tamanhos 5, 20, 30 e 40.

(25)

Mas como saber quando o tamanho amostral ´e adequado ou n˜ao para usar o TCL?

Você não precisará se preocupar com isso. Em geral, o uso do TCL é considerado adequado para amostras de tamanho maior ou igual a 30, independentemente da forma original da popula¸cão.

O desvio padrão da distribui¸cão amostral da média, igual a √σ

n, ´e chamado de erro padr˜ao

de ¯X. Ele fornece uma medida do grau com que as médias amostrais se desviam do valor esperado de sua distribui¸cão (que coincide com a média populacional µ).

Logo, podemos usar essa informa¸cão para des-cobrir o quão precisa é a nossa estimativa da média da popula¸cão.

(26)

Vejamos um exemplo teórico. Suponha que uma popula¸cão, caracterizada por uma variável aleatória X, tenha distribui¸cão normal com m´ e-dia 10 e variância 100.

X ∼ N ( 10 |{z} =µ , 100 | {z } =σ2 )

Suponha também que iremos trabalhar com amostras aleatórias de tamanho n = 16. Como fica a distribui¸cão amostral de ¯X, a média amos-tral?

(27)

Aqui cabe comentar que no caso de popula¸cões normais, não é necessário usar o TCL, pois a distribui¸cão amostral de ¯X é, de fato, uma normal. Assim, temos ¯ X ∼ N µ, σ_n2 = N (10, 6.25).

Veja o gráfico dessa distribui¸cão (em vermelho destaca-se a distribui¸cão da popula¸cão).

(28)

Como é poss´ıvel ver a distribui¸cão amostral da média é muito mais concentrada em torno de seu valor esperado do que a distribui¸cão da popula¸cão.

Calcule, por exemplo, agora P (−5 < ¯X < 15) e compare com P (−5 < X < 15)

Usando o Excel:

P (−5 < X < 15) = normdist(15; 10; 10; true)−normdist(−5; 10; 10; true) ' 0.8664

P (−5 < ¯X < 15) = normdist(15; 10; 2.5; true)−normdist(−5; 10; 2.5; true) ' 1−

A nota¸cão 1− foi usada para indicar que a probabilidade é quase igual a 1, mas é menor que 1.

(29)

Vimos que entre ±1, 96 desvios da média o gráfico da distribui¸cão normal compreende 95% dos valores. Qual deveria ser o tamanho da amostra se desejássemos que em 95% das vezes a média amostral ca´ısse entre 10 ± 2, isto é, entre 8 e 12? 0, 95 = P (8 < ¯X < 12) = P 8−10 10/√n < Z < 12−10 10/√n = = P −0, 2√n < Z < 0, 2√n = 2φ(0, 2√n) − 1 Logo, φ(0, 2√n) = 0, 975 e, usando a tabela da normal pardão 0, 2√n = 1, 96.

√

n = 1, 96

0, 2 ↔ n = (9, 8)

2 _{' 96.}

(30)

Antes de prosseguir, vamos enumerar os prin-cipais resultados apresentados at´e aqui.

Sejam

X uma popula¸cão com média µ e variância σ2; X₁, X₂, ..., X_n uma amostra aleatória de tamanho n da popula¸cão; ¯ X = 1_n n X i=1 X_i a média amostral.

Então, o valor esperado, ou simplesmente a média, da distribui¸cão de ¯X é dado por

E[ ¯X] = µ e, a variˆancia, por Var( ¯X) = σ

2

n . O erro-padr˜ao (desvio padr˜ao) de ¯X: σ_X_¯ = √σ

(31)

Se a popula¸c˜ao for normal, ¯

X ∼ N (µ, σ

2

n )

qualquer que seja n; ou equivalentemente, ¯

X − µ

σ/√n ∼ N (0, 1).

Se a popula¸c˜ao n˜ao for normal, segue, do TCL, que para n ≥ 30, ¯ X ∼ N (µ,a σ 2 n ) ou equivalentemente, ¯ X − µ σ/√n a ∼ N (0, 1).

(32)

Nos problemas reais o valor de σ também não é conhecido. Portanto, será necessário, usando a amostra dispon´ıvel, estimar seu valor.

Observe que como o erro padr˜ao de ¯X σ_X_¯ = √σ n

!

é inversamente proporcional ao tamanho da amostra, isso significa que quanto maior for o tamanho amostral, menor será a variabilidade das médias amostrais e, portanto, mais precisa será a nossa estimativa da média populacional. O mesmo deve ser esperado para estimativas do desvio padrão populacional σ: quanto maior for a amostra, mais precisas serão as nossas estimativas.

Se X₁, X₂, ..., X_n é a amostra observada, esti-mamos a variância da popula¸cão σ2 pela va-riância amostral S2 = 1

n−1 n X i=1 (X_i − ¯X)2 e, σ por S = √ S2.

(33)

Assim, para amostras grandes n ≥ 30, se σ2 ´e desconhecido, usamos uma estimativa dada por s e aplicamos o TCL ¯ X − µ S/√n a ∼ N (0, 1) . com S estimador de σ. E se n < 30? Como proceder?

Vamos come¸car essa discussão com um exem-plo particular de estima¸cão de uma propor¸cão populacional.

Seja X₁, X₂,..., X_n uma amostra aleatória da distribui¸cão binomial(1, p) tal que cada X_i é 0 ou 1 com probabilidades 1 − p ou p respecti-vamente. Suponha que p seja desconhecida e represente uma propor¸cão de interesse.

Lembre que no modelo binomial(1, p) tem-se valor esperado µ = p e variˆancia σ2 = p(1 − p).

(34)

Observe que nesse contexto ¯X = ˆp é a pro-por¸cão amostral de “sucessos”. É natural usar a propor¸cão amostral (que é uma média) como estimador da propor¸cão populacional.

Se n ´e grande podemos usar o TCL tal que

ˆ p ∼ Na        p |{z} =µ , p(1 − p) n | {z } =σ2_n        .

Porém, para valores moderados de n e de-pendendo do verdadeiro valor de p essa apro-xima¸cão poderá não ser boa.

No entanto, nesse contexto particular, é fácil ver que nˆp ∼ binomial(n, p), pois representará o número de sucessos em n Ensaios de Bernoulli com probabilidade de sucesso p.

Assim, a distribui¸c˜ao exata de ˆp ´e uma binomial multiplicada por um fator 1/n.

(35)

Exemplo: Um professor dá um teste de 20 questões do tipo certo ou errado. Para tes-tar a hipótese de o estudante estar chutando a resposta, ele adota a seguinte regra de de-cisão: “Se 13 ou mais questões estiverem cor-retas, ele decide que o estudante não chutou as questões do teste”. Qual é a probabilidade de rejeitarmos a hipótese, sendo ela de fato verdadeira?

Solu¸cão: Se a hipótese é de fato verdadeira observe que o estudante irá acertar cada uma das 20 questões com probabilidade 1/2. Re-jeitamos a hipótese se o número de acertos é maior ou igual a 13.

Seja X o n´umero de acertos. Queremos cal-cular P (X ≥ 13 dado que p = 1/2). Observe que nesse caso, X ∼ binomial(20, 1/2).

Vamos usar o Bioestat para calcular essa pro-babilidade.

(36)

Depois de abrir o programa, escolha no menu horizontal superior Estat´ısticas e, depois Dis-tribui¸c˜oes de Probabilidade. Em seguida, clique na op¸c˜ao binomial.

Basta ent˜ao informar n = 20, k = 13 e pro-por¸c˜ao esperada igual a 1/2.

(37)

Assim,

P (X ≥ 13) = P (X = 13) + P (X > 13) = = 0, 0739 + 0, 0577 = 0, 1316

tal que há uma probabilidade de cerca de 13% de rejeitar a hipótese de que o aluno está chu-tando as respostas do teste dado que de fato ele chutou.

No Excel usa-se

= 1 − distr.binom(12; 20; 0, 5; verdadeiro) que retorna o valor 0,131587982' 0, 13.

Qual deveria ser a regra se desej´assemos que essa probabilidade fosse no m´aximo igual a 5%?

(38)

Para responder a pergunta podemos ir aumen-tando o valor de k na tela binomial do Bioestat at´e a primeira vez que P (X ≥ k) seja inferior a 0,05.

Por exemplo, se aumentarmos para k=14, obte-remos P (X ≥ 14) = 0.0577 que ainda ´e maior que 0,05.

Vejamos então com k = 15. Agora temos P (X ≥ 15) = 0, 0207. Logo a resposta será “Devemos rejeitar a hipótese de que o aluno está chutando as respostas, se o número de acertos for maior ou igual a 15.”

Observe que como o problema envolve uma variável aleatória discreta, número de acertos, pode não existir uma solu¸cão exata para proba-bilidades fixadas. Fixamos a probabilidade em 5%, mas vimos que ou a regra é para 14 acer-tos e a probabilidade é cerca de 6%(5,77%) ou para 15, e a probabilidade é cerca de 2%(2,07%).

(39)

Agora vamos ver como fica o caso de amostras moderadas de uma variável aleatória cont´ınua. Suponha que dispomos de uma amostra aleat´ o-ria de tamanho moderado (n < 30) de uma variável aleatória X cont´ınua.

Nesse caso, há uma solu¸cão similar quando a variável aleatória sob considera¸cão tem uma distribui¸cão normal. Porém, se claramente não for razoável supor a normalidade da variável em estudo, a solu¸cão que iremos apresentar não será adequada.

Uma poss´ıvel forma de lidar com dados não normais é transformá-los.

(40)

Por exemplo, para dados positivos com assime-tria à direita, costuma-se usar a transforma¸cão logar´ıtmica. Se com a transforma¸cão, a su-posi¸cão de normalidade for razoável, podemos trabalhar na escala transformada, lembrando depois de voltar à escala original na hora de apresentarmos nossas conclusões.

Existem técnicas de inferência estat´ıstica n˜ ao-paramétrica que não requerem a suposi¸cão da forma da distribui¸cão da popula¸cão que tam-bém podem ser usadas para o caso não-normal com amostras moderadas.

Veremos agora a solu¸cão para o caso: amos-tras moderadas de uma popula¸cão normal com média µ e desvio padrão σ desco-nhecidos.

(41)

Para isso, vamos enunciar primeiro um impor-tante resultado para amostras da distribui¸c˜ao normal.

Seja X1, X2, ..., Xn uma amostra da distribui¸c˜ao N (µ, σ2).

Ent˜ao, 1. X ∼ N µ,¯ σ2 n ; 2. S2 = 1 n−1 n X i=1

(Xi − ¯X)2 e ¯X são variáveis aleatórias

independentes; 3. n−1

σ2 S

2 _{tem uma distribui¸}_c˜_{ao de qui-quadrado com}

n − 1 graus de liberdade (ser´a explicado adiante) e; 4.

T = ¯ X − µ

S/√n

(42)

A distribui¸c˜ao t

Também conhecida como distribui¸cão t de Stu-dent, leva esse nome pois foi publicada por William Sealy Gosset (1876-1937) em 1908 sob o pseudônimo de Student, pois Gosset não podia usar seu nome verdadeiro para publicar trabalhos enquanto trabalhasse para a cerve-jaria Guinness.

A distribui¸cão t, como a normal padrão, tam-bém tem densidade simétrica em torno de zero, porém apresenta caudas mais pesadas do que a normal padrão. O único parâmetro que a define (ν) caracteriza a sua forma e é chamado número de graus de liberdade.

(43)

Quanto maior for o valor do parâmetro ν, a distribui¸cão t_(ν) se aproximará da distribui¸cão normal padrão.

Os dois gr´aficos a seguir ilustram as propriedades citadas da distribui¸c˜ao t.

(44)

(45)

Como obter probabilidades associadas a dis-tribui¸c˜ao t_(ν)?

Da mesma forma que a normal padrão, também estão dispon´ıveis na maioria dos livros de es-tat´ıstica tabelas da distribui¸cão t. Probabili-dades associadas a distribui¸cão t também po-dem ser obtidas via programas estat´ısticos. A planilha EXCEL por exemplo fornece probabi-lidades associadas a distribui¸cão t.

Como vimos a distribui¸cão t é caracterizada por um parâmetro ν, chamado número de graus de liberdade.

(46)

(47)

Exemplo: Suponha que se deseja estimar o tempo médio para realizar uma tarefa. Para isso sorteou-se uma amostra aleatória de 16 operários cujos tempos de realiza¸cão da tarefa, em minutos, foram registrados.

82 102 91 90 87 107 83 78 88 101 99 76 67 87 99 88

(48)

Suponha que desejamos determinar um inter-valo sim´etrico em torno da verdadeira m´edia tal que a probabilidade da estat´ıstica T cair entre esses dois valores seja de 95%.

Já resolvemos um problema similar a esse, mas no contexto da distribui¸cão normal com variˆ an-cia conhecida e vimos que, depois de padronizar, P (−1, 96 < Z < 1, 96) = 0, 95. Observe que agora, apesar de considerarmos a normalidade dos dados, a variância da popula¸cão não é co-nhecida. Logo, usaremos a distribui¸cão t com n − 1 = 16 − 1 = 15 graus de liberdade.

Aqui, a chave para solucionar esse problema ´e usar o resultado

T = ¯

X − µ

(49)

No Bioestat, escolhendo o módulo distribui¸cões de probabilidade, outras distribui¸cões, distribui-¸

cão t, podemos por tentativas encontrar o valor simétrico em torno de zero que produz uma probabilidade de 95% para os valores inter-mediários.

Depois de algumas tentativas o Bioestat fornece o valor 2.13, uma aproxima¸c˜ao com duas casas decimais.

(50)

No Excel, obtemos esse valor de forma mais direta usando a fun¸c˜ao

= IN V.T ( 0, 975 | {z } probabilidade acumulada ; graus de liberdade z}|{ 15 )

que retorna o valor 2,13145. Logo,

P (−2, 13 < T = ¯

X − µ

(51)

Como verificar se a suposi¸cão de normalidade dos dados é razoável?

Existem ferramentas gráficas tais como os gr´ a-ficos de probabilidade normal, que devem ter uma aparência linear, quando os dados de fato são normais e, os histogramas das distribui¸cões de frequências, que devem ter uma forma uni-modal aproximadamente simétrica em torno da média.

Também existem vários testes estat´ısticos de verifica¸cão da suposi¸cão de normalidade. Va-mos deixar esta discussão para uma aula pos-terior à próxima, na qual trabalharemos com as primeiras idieas de testes de hipóteses e alguns testes mais simples.

(52)

Intervalos de Confian¸ca

Vamos come¸car com um exemplo. Suponha que se deseja estimar a média µ de uma po-pula¸cão qualquer e que para isso usaremos a média amostral ¯X de uma amostra aleatória de tamanho n. Usando o TCL, supondo n ≥ 30 temos que ¯ X − µ σ/√n a ∼ N (0, 1).

Logo, usando a tabela da normal padr˜ao, pode-mos escrever, por exemplo,

P (−1, 96 < ¯ X − µ σ_X_¯ < 1, 96) = 0, 95 com σ_X_¯ = √σ n.

(53)

Por meio de opera¸cões algébricas, é poss´ıvel reescrever a equa¸cão anterior na forma

P X − 1, 96σ¯ _X_¯ < µ < 1, 96σ_X_¯ = 0, 95

e, essa equa¸c˜ao nos fornece os limites de 95% de confian¸ca de µ, a saber,

¯

X ± 1, 96σ_X_¯

Nota¸c˜ao: IC(µ, 0.95) : X ± 1, 96σ¯ _X_¯

com σ_X_¯ = √σ n.

(54)

Interpreta¸c˜ao do intervalo: a figura a seguir ´e ´

util na interpreta¸c˜ao.

Resumindo: Se pudéssemos construir uma quan-tidade grande de intervalos da forma ¯X±1, 96σ_X_¯, todos baseados em amostras aleatórias de tama-nho n da popula¸cão, 95% deles conteriam o parâmetro µ.

(55)

No exemplo que acabamos de apresentar, 95% ´e dito ser o n´ıvel ou coeficiente de confian¸ca do intervalo.

´

E claro que podemos usar um n´ıvel de con-fian¸ca qualquer e que, em geral far´a sentido, n´ıveis de confian¸ca altos, pr´oximos de 1.

1,96 é o quantil da distribui¸cão normal padrão tal que P (−1, 96 < Z < 1, 96) = 0, 95.

Vamos adotar a seguinte nota¸c˜ao seja z_(γ) tal que

P (−z_(γ) < Z < z_(γ)) = γ, 0 < γ < 1.

(56)

Observe que com essa nota¸cão z_(0.95) = 1, 96. E também que um intervalo de n´ıvel de con-fian¸ca γ para µ é dado por ¯X ± z_(γ)σ_X_¯.

(57)

Intervalos de Confian¸ca com n´ıvel de confian¸ca γ para a m´edia populacional

1. Amostras da distribui¸cão normal ou amostras suficientemente grandes n ≥ 30 IC(µ, γ) : X¯ |{z} média amostral ±z_(γ) √σ n | {z } erro padrão

Observa¸cão: se o valor de σ não for conhecido substitua-o na expressão acima por uma esti-mativa.

2. Amostras da distribui¸cão normal, σ desco-nhecido, n < 30 IC(µ, γ) : X¯ |{z} média amostral ±t_(γ,n−1) √s n | {z } erro padrão de ¯X

(58)

Em (2) na tela anterior a nota¸cão t_(γ,n−1) é similar à nota¸cão usada na distribui¸cão normal, conforme a figura a seguir. A diferen¸ca é que agora usamos uma distribui¸cão t com n − 1 graus de liberdade.

(59)

Intervalos de Confian¸ca para a propor¸c˜ao po-pulacional

No caso de intervalos para a propor¸c˜ao, se fos-semos usar a express˜ao dada em (1) ter´ıamos

IC(p, γ) : pˆ |{z} propor¸c˜ao amostral ±z_(γ) q p(1 − p) √ n | {z } erro padr˜ao de ˆp

No entanto o valor de p não é conhecido e aparece na expressão do erro padrão. Nesse contexto costuma-se adotar duas estratégias. A primeira, conservadora, trabalha com o pior cenário poss´ıvel e substitui p na fórmula do erro padrão por 1/2, que produz o intervalo mais largo poss´ıvel.

A segunda , que pode ser usada para tamanhos amostrais suficientemente grandes, substitui p por ˆp.

(60)

Assim temos, Alternativa conservadora: IC(p, γ) : ˆp ± z_(γ) s 1 4n Outra alternativa: IC(p, γ) : ˆp ± z_(γ) q ˆ p(1 − ˆp) √ n

(61)

Exemplo 1: (Pinheiro e outros - Estat´ıstica B´asica: a arte de trabalhar com dados - Cap. 7- ex. 7.6)

Levando em conta simultaneamente as respos-tas dadas por 200 clientes de uma empresa a todos os itens de um questionário, foi calcu-lado um ´ındice de satisfa¸cão global correspon-dente a cada responcorrespon-dente. Este ´ındice varia de 0 (totalmente insatisfeito) a 100 (totalmente satisfeito). Com respeito a esse ´ındice de sa-tisfa¸cão foi constru´ıdo um intervalo de 95% de confian¸ca para o n´ıvel médio de satisfa¸cão da popula¸cão de clientes dessa empresa e que resultou nos seguintes limites

IC(µ, 95%) : (43, 5 ; 63, 9).

Quais das afirma¸cões a seguir estão corretas e quais não estão? Justifique cada uma de suas respostas.

(62)

(a) A probabilidade de que µ esteja entre 43,5 e 63,9 ´e 95%.

(b) Se fosse extra´ıda uma outra amostra, tam-bém com 200 clientes, a probabilidade de a média amostral dos ´ındices de satisfa¸cão ob-servados cairem entre 43,5 e 63,9 é 95%.

(c) Se fossem extra´ıdas 100 amostras de tama-nho 200 e se usasse o mesmo procedimento que deu origem ao intervalo apresentado no enunciado para cada amostra, cerca de 95% dos intervalos obtidos conteriam o valor de µ. (d) O desvio padrão populacional do ´ındice de satisfa¸cão é aproximadamente igual a 5,1.

(e) Todos os entrevistados apresentaram ´ındices de satisfa¸c˜ao entre 43,5 e 63,9.

(63)

Exemplo 2: (Dancey e Reidy - Estat´ıstica sem Matem´atica para Psicologia. Cap´ıtulo 4. Ex-erc´ıcio 2)

O Dr. Doolittle finalmente desistiu da ideia de conversar com animais e decidiu tornar-se um psicólogo experimental de animais. Ele está particularmente interessado em descobrir se os gatos são ou não mais inteligentes que os ca-chorros. Para isso ele desenvolveu um teste de inteligência espec´ıfico para esse estudo e testa amostras de gatos e cachorros. Ele foi cuida-doso para não introduzir qualquer tipo de v´ıcio no teste e acredita que criou um teste que não está associado às espécies, ou seja, pode ser u-sado em qualquer espécie. Dr, Dotlittle espera que exista uma diferen¸ca entre os escores de gatos e cachorros. No experimento ele traba-lhou com duas amostras aleatórias de 10 gatos e 10 cachorros e, os resultados obtidos, estão na tabela a seguir.

(64)

gatos cachorros 95 116 100 112 104 102 78 96 130 89 111 124 89 131 114 117 102 107 97 110

1. Construa intervalos de confian¸ca de 95% de confian¸ca para os escores m´edios de gatos e de cachorros.

2. Que suposi¸c˜oes vocˆe usou para construir os intervalos do item anterior?

3. Vocˆe diria que o Dr. Doolittle est´a cor-reto? Por que?

(65)

Exemplo 3: (Levine e outros - Estat´ıstica: Teo-ria e Aplica¸c˜oes - Cap. 6 - exerc´ıcio 6.56)

O diretor de pessoal de uma grande corpora¸cão deseja estudar o absente´ısmo dos trabalhadores administrativos do escritório central da cor-pora¸cão durante o ano. Uma amostra aleat´ o-ria de 25 empregados administrativos revelou o seguinte:

• ¯x = 9, 7 dias, s = 4 dias

• 12 trabalhadores administrativos estiveram ausentes mais de 10 dias.

(a) Construa um intervalo de 99% de con-fian¸ca, para o número médio de ausências de trabalhadores administrativos no ano pasado. (b) Construa um intervalo de 95% de con-fian¸ca para a propor¸cão de trabalhadores ad-ministrativos que estiveram ausentes por mais de 10 dias durante o ano passado.

(66)

Referˆencias bibliogr´aficas:

(1) Busssab e Morettin - Estat´ıstica B´asica. Editora Saraiva

(2) Pinheiro e outros - Estat´ıstica B´asica - a arte de trabalhar com dados - Elsevier

(3) Thurman - Estat´ıstica - Saraiva

(4) Dancey e Reidy - Estat´ıstica sem Matem´atica para Psicologia - Penso

(5) Levine e outros. Estat´ıstica: Teoria e Aplica¸c˜oes.