• Nenhum resultado encontrado

Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior Departamento de Estatística-UFPR

N/A
N/A
Protected

Academic year: 2021

Share "Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior Departamento de Estatística-UFPR"

Copied!
66
0
0

Texto

(1)

Estat´ıstica

Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior Departamento de Estat´ıstica-UFPR

Email: pj@est.ufpr.br Resumo

Este curso apresenta uma introdu¸c˜ao aos m´etodos estat´ısticos para modelagem de dados. Neste curso, o aluno pensar´a em problemas pr´aticos de uma forma quantitativa e ganhar´a um entendimento dos princ´ıpios b´asicos em estat´ıstica. A obten¸c˜ao de um conhecimento s´olido das id´eias b´asicas dar´a ao aluno confian¸ca para abordar m´etodos estat´ısticos mais avan¸cados que podem ser encontrados no futuro.

(2)

Livros

Bussab, W. e Morettin, P. Estat´ıstica B´asica. Editora Atlas. Speed, T. & Nolan, D. Stats Labs.

Soares, J.F. Estat´ıstica

Conte´udo

1. Introdu¸c˜ao: Por que h´a a necessidade de Estat´ıstica?

2. Estat´ısticas Descritivas: sum´ario de dados, gr´afico de barras, gr´afico de setores, histograma, ramo-e-folhas, mediana, moda, desvio padr˜ao, amplitude inter-quartis,... 3. Popula¸coes e amostras: usando amostras para aprender sobre a popula¸c˜ao

4. Intervalos de confian¸ca: estimando a m´edia populacional a partir de uma amostra

5. Testes de hip´oteses: id´eia b´asica e testes para uma amostra

6. Compara¸c˜ao de dois grupos: As mensura¸c˜oes num grupo tendem a ser maiores em

m´edia do que em outro?

7. Correla¸c˜ao: verificando se os valores de duas quantidades tendem a ser relacionadas

8. Regress˜ao: descrevendo como o comportamento de uma quantidade muda com o valor

(3)

1

Introdu¸c˜

ao

1.1 O que ´e Estat´ıstica?

Primeiro deve-se estabelecer o que se deseja dizer com “estat´ıstica”. Ela tem pelo menos trˆes significados:

1. cole¸c˜ao de informa¸c˜oes num´ericas ou dados,

2. medidas resultantes de um conjunto de dados, como por exemplo m´edias, 3. m´etodos usados na coleta e interpreta¸c˜ao de dados.

Qual ´e o papel da estat´ıstica na ciˆencia?

• Na ciˆencia, s˜ao realizados estudos experimentais ou observacionais, levando `a cole¸c˜ao de dados num´ericos.

• O prop´osito da investiga¸c˜ao ´e responder uma quest˜ao cient´ıfica.

• O padr˜ao de varia¸c˜ao nos dados faz com que a resposta n˜ao seja ´obvia.

• Em geral, a disciplina de estat´ıstica refere-se a m´etodos para coleta e descri¸c˜ao dos dados, e ent˜ao a verifica¸c˜ao da for¸ca da evidˆencia nos dados pr´o ou contra as id´eias cient´ıficas. A presen¸ca de uma varia¸c˜ao n˜ao previs´ıvel nos dados faz disso uma tarefa pouco trivial.

1.2 Varia¸c˜ao Amostral

Alguns exemplos onde a varia¸c˜ao est´a presente no dado podem ser encontrados em Landim (1997).

(4)

2

Estat´ıstica Descritiva

2.1 Tipos de dado

A interpreta¸c˜ao das listas de n´umeros a olho ´e muito dif´ıcil. Ao inv´es disso, n´os dever´ıamos

produzir um resumo verbal ou num´erico e/ou usar m´etodos gr´aficos para descrever

os pontos principais dos dados.

O m´etodo mais apropriado depender´a da natureza dos dados, e aqui podemos distinguir dois tipos principais:

1. Dados qualitativos ou categ´oricos que podem ser:

(a) nominais, por exemplo • sexo: masculino, feminino • classifica¸c˜ao de f´osseis

(b) ordinais, i.e. categorias ordenadas, tais como • salinidade: baixa, m´edia, alta

• abundˆancia: dominante, abundante, frequente, ocasional, raro

2. Dados quantitativos ou num´ericos que podem ser:

(a) discretos, i.e. contagens ou n´umero inteiros, por exemplo

• n´umero de ovos postos pela tartaruga marinha

• n´umero de ataques de asma no ano passado

(b) cont´ınuos, i.e. medidas numa escala cont´ınua, tais como • volume, ´area, peso, massa

• velocidade de corrente

As distin¸c˜oes s˜ao menos r´ıgidas do que a descri¸c˜ao acima insinua. Por exemplo, em geral n´os tratar´ıamos idade como uma vari´avel cont´ınua, mas se a idade for registrada pelo ano mais pr´oximo, podemos trata-la como discreta, e se separarmos a amostra em “crian¸cas”, “adultos jovens”, “idade m´edia”, “velhos”, por exemplo, ent˜ao temos faixa et´aria como uma vari´avel ordenada categ´orica. No entanto, em geral ´e recomendado manter os dados em sua forma original, categorizando os dados somente para prop´ositos de apresenta¸c˜ao.

(5)

2.2 Dados qualitativos

Para sumarizar dados qualitativos numericamente, utiliza-se contagens, propor¸c˜oes,

percentagens, taxas por 1000, taxas por 1.000.000, etc, dependendo da escala apropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia s˜ao homens, poder´ıamos relatar a taxa como uma propor¸c˜ao (0.5) ou provavelmente ainda melhor como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000 pessoas s˜ao portadores de uma doen¸ca rara poder´ıamos expressar isto como uma propor¸c˜ao observada (0.0014) ou percentual (0.14%), mas melhor seria 1.4 casos por mil.

2.2.1 Tabulando dados

Frequentemente o primeiro passo da descri¸c˜ao de dados ´e criar uma tabela de frequˆencia. Por exemplo, as esp´ecies de “woodlice” caindo numa armadilha foram:

Species tally ni ni/N pi Percentage

Oniscus ||||||||||||||| 12 12/27 0.444 44.4%

Porcellio |||||||| 8 8/27 0.296 29.6%

Philoscia ||||| 5 5/27 0.185 18.5%

Armadilidium || 2 2/27 0.074 7.4%

N = 27 Σpi = 1

Num relat´orio, a segunda coluna n˜ao seria mostrada, e os dados seriam sumarizados num formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas categorias, ent˜ao ´e conveniente colapssar algumas das categorias com somente uma ou duas observa¸c˜oes em outra categoria chamada “outros”.

Table showing the species of 27 woodlice that fell in a pit-fall trap:

Species Frequency Percentage

Oniscus 12 44.4%

Porcellio 8 29.6%

Philoscia 5 18.5%

Armadilidium 2 7.4%

Tabelas simples como esta s˜ao na maioria das vezes suficientes para descrever dados qua-litativos especialmente quando existem somente duas ou trˆes categorias.

(6)

2.2.2 Resumindo numericamente

Considere o seguinte conjunto de dados que mostra os escores de abundˆancia m´edios DAFOR de ocorrˆencia de Nardus stricta em 100 ´areas investigadas em Exmoor.

Dominante 8

Abundante 33

Frequente 32

Ocasional 17

Raro 10

A moda de um conjunto de dados categ´oricos ´e a categoria que tem o maior percentual de dados. Ela deve ser usada cuidadosamente como uma medida resumo global porque ´e muito dependente da forma como os dados s˜ao categorizados. Para os dados de “woodlice” a moda ´e Oniscus. Para os dados acima, a categoria modal ´e “Abundante”, mas por muito pouco.

A mediana, bem como a moda, podem ser calculadas para dados ordenados. Este ´e valor do “meio”, mais comumente usado para dados quantitativos. A mediana n˜ao faz sentido para os dados “woodlice”. Para os dados de abundˆancia, a categoria mediana ´e “Frequente”, porque 50% dos dados est˜ao em categorias superiores, e menos do que 50% est˜ao em categorias inferiores. A mediana ´e mais robusta do que a moda pois ´e menos sens´ıvel `a categoriza¸c˜ao adotada.

2.2.3 Gr´aficos de Barras

Dados qualitativos, particularmente quando as categorias s˜ao ordenadas, s˜ao usualmente

bem ilustrados num simples gr´afico de barras onde a altura da barra ´e igual `a frequˆencia.

Rare Occasional Frequent Abundant Dominant

0

10

20

30

(7)

2.2.4 Gr´afico de setores

Gr´afico de setores tamb´em podem ser ´uteis para apresenta¸c˜ao de dados categ´oricos

or-denados. Os setores do gr´afico s˜ao desenhados de tal forma que eles tenham ´area

propor-cional `a frequˆencia. Ent˜ao para os dados “woodlice”, os ˆangulos seriam 0.444×360 = 160◦

para Oniscus, etc.

Oniscus

Porcellio Philoscia

Armadilidium

2.3 Dados quantitativos

2.3.1 Histograma

De longe o m´etodo mais comum de apresenta¸c˜ao de dados num´ericos ´e o histograma, relacionado com o gr´afico de barras para dados categ´oricos. As ´areas dos retˆangulos resultantes devem ser proporcionais `a frequˆencia.

Algumas vezes ´e conveniente agregar classes de frequˆencia nos extremos da distribui¸c˜ao de forma que os intervalos tˆem larguras diferentes. Cuidado ao fazer isso - um intervalos que ´e duas vezes a largura de um outro deve tem altura igual `a metada de sua frequˆencia (para preservar a ´area contida dentro do intervalo) Da mesma forma um intervalo que ´e trˆes vezes a largura dos outros deve ter um ter¸co da altura de sua frequˆencia observada. Exemplo. 150 peixes mortos foram encontrados v´ıtimas de contamin¸c˜ao do rio e seus comprimentos foram medidos em mil´ımetros. As medidas foram expressas na forma de tabela de frequˆencia.

Comprimento do peixe (mm) Frequˆencia

100-109 7 110-119 16 120-129 19 130-139 31 140-149 41 150-159 23 160-169 10 170-179 3

(8)

100 120 140 160 180 0 10 20 30 40 Fish lengths (mm) Frequency

O histograma constru´ıdo desses dados ´e mostrado abaixo.

Gr´afico de Ramos-e-Folhas

Um m´etodo gr´afico que merece ser mais amplamente utilizado quando a quantidade de dados n˜ao ´e muito grande ´e o gr´afico de ramos-e-folhas como ilustrado a seguir.

Exemplo. Um estudo geoqu´ımico realizado utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150 mesh e profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr

10.6 14.1 13.7 15.2 15.4 12.5 12.9

14.3 13.0 12.6 12.0 14.0 10.0 18.2

11.5 9.4 16.5 13.7 14.7 16.6 11.4

18.4 17.4 11.1 15.8 17.0 13.6 16.6

11.8 15.8 13.5

Uma vez que a escala tenha sido determinada, a qual define os “ramos” `a esquerda da linha veritcal, podemos facilmente escrever os dados no gr´afico de ramos-e-folhas como no diagrama esquerdo; como um refinamento podemos ent˜ao ordenar as “folhas” no diagrama `a direita:

(9)

9 4 10 6 0 11 5 4 1 8 12 5 9 6 0 13 7 0 7 6 5 14 1 3 0 7 15 2 4 8 8 16 5 6 6 17 4 0 18 2 4 9 4 10 0 6 11 1 4 5 8 12 0 5 6 9 13 0 5 6 7 7 14 0 1 3 7 15 2 4 8 8 16 5 6 6 17 0 4 18 2 4

Acima os ramos s˜ao n´umeros inteiros e as folhas s˜ao valores depois do ponto decimal,

mas isto n˜ao ´e essencial em geral; por exemplo, os ramos podem representar centenas e as folhas dezenas (com unidades arredondadas para o decimal mais pr´oximo; as folhas

devem ter um ´unico d´ıgito). Nota: ´e importante escrever as folhas em colunas igualmente

espa¸cadas, caso contr´ario pode resultar uma figura distorcida.

O gr´afico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a perda de qualquer informa¸c˜ao.

Compare-o com um histograma para os mesmos dados:

8 10 12 14 16 18 20 0 1 2 3 4 5 Concentracao de Cr (ppm) Frequency

(10)

2.3.2 Resumindo numericamente

Para resumir numericamente dados quantitativos o objetivo ´e escolher medidas

apropri-adas de loca¸c˜ao (“qual o tamanho dos n´umeros involvidos?”) e de dispers˜ao (“quanta

varia¸c˜ao existe?”) para os tipos de dados.

Existem trˆes escolhas principais para a medida de loca¸c˜ao, a chamada “3 Ms”, as quais est˜ao ligadas a certas medidas de dispers˜ao como segue:

M ‘Dispers˜ao’

m´edia (o valor ‘m´edio’) desvio padr˜ao

mediana (o valor do ‘meio’) IQR

moda (o valor ‘mais comum’) propor¸c˜ao

2.3.3 M´edia, variˆancia e desvio padr˜ao

Para resumir dados quantitativos aproximadamente sim´etricos, ´e usual calcular a m´edia

aritm´etica como uma medida de loca¸c˜ao. Se x1, x2, . . . , xns˜ao os valores dos dados, ent˜ao

podemos escrever a m´edia como

x = x1+ x2+ . . . + xn

n =

Pn

i=1xi

n ,

onde ‘Pni=1xi = x1 + x2+ . . . + xn’ e frequentemente ´e simplificada para Pxi ou at´e

mesmo Px que significa ‘adicione todos os valores de x’.

A variˆancia ´e definida como o ‘desvio quadr´atico m´edio da m´edia’ e ´e calculada de uma

amostra de dados como s2 = Pn i=1(xi− x)2 n − 1 = Pn i=1(x2i) − nx2 (n − 1) .

A segunda vers˜ao ´e mais f´acil de ser calculada, embora muitas calculadoras tˆem fun¸c˜oes prontas para o c´alculo de variˆancias, e ´e raro ter que realisar todos os passos manualmente.

Comumente as calculadoras fornecer˜ao a raiz quadrada da variˆancia, o desvio padr˜ao,

i.e.

s =√variˆancia =√s2

a qual ´e medida nas mesmas unidades dos dados originais.

Uma inform¸c˜ao ´util ´e que para qualquer conjunto de dados, pelo menos 75% deles fica

dentro de uma distˆancia de 2 desvio padr˜ao da m´edia, i.e. entre ¯x − 2s e ¯x + 2s.

Exemplo. Sete homens foram pesados, e os resultados em kg foram: 57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.

(11)

A m´edia ´e 454.3/7 = 64.9 kg,

a variˆancia ´e (29635.05 − 454.32/7)/6 = 25.16 kg2

e o desvio padr˜ao ´e√25.16 = 5.02 kg.

2.3.4 A mediana e a amplitude inter-quartis

Uma outra forma de sumarizar dados ´e em termos dos quantis ou percentis. Essas

medidas s˜ao particularmente ´uteis para dados n˜ao sim´etricos. A mediana (ou percentil

50) ´e definida como o valor que divide os dados ordenados ao meio, i.e. metade dos dados tˆem valores maiores do que a mediana, a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, s˜ao definidos como os valores abaixo dos quais est˜ao um quarto e trˆes quartos, respectivamente, dos dados. Estes trˆes valores s˜ao frequentemente usados para resumir os dados juntamente com o m´ınimo e o m´aximo. Eles s˜ao obtidos ordenando os dados do menor para o maior, e

ent˜ao conta-se o n´umero apropriado de observa¸c˜oes: ou seja ´e n+1

4 , n+12 e

3(n+1)

4 para

o quartil inferior, mediana e quartil superior, respectivamente. Para um n´umero par de

observa¸c˜oes, a mediana ´e a m´edia dos valores do meio (e analogamente para os quartis inferior e superior).

A medidade de dispers˜ao ´e a amplitude inter-quartis, IQR = Q3 − Q1, i.e. ´e a diferen¸ca entre o quartil superior e o inferior.

Exemplo. O n´umero de crian¸cas em 19 fam´ılias foi

0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10

A mediana ´e o (19+1) / 2 = 10o valor, i.e. 3 crian¸cas.

O quartil inferior e superior s˜ao os valores 5o e 15o, i.e. 2 e 6 crian¸cas, portanto

amplitude inter-quartil ´e de 4 crian¸cas. Note que 50% dos dados est˜ao entre os quartis inferior e superior.

(12)

2.3.5 Box-and-Whisker Plots

Box-and-Whisker plots ou simplesmente box-plots s˜ao simples representa¸c˜oes diagram´aticas

dos cinco n´umeros sum´arios: (m´ınimo, quartil inferior, mediana, quartil superior, m´aximo).

Um box-plot para os dados geoqu´ımicos fica como mostrado a seguir.

10 12 14 16 18

2.3.6 A moda

Nem todos os conjuntos de dados s˜ao suficientemente balanceados para o c´alculo da m´edia

ou mediana. Algumas vezes, especialmente para dados de contagem, um ´unico valor

domina a amostra. A medida de loca¸c˜ao apropriada ´e ent˜ao a moda, a qual ´e o valor que ocorre com maior frequˆencia. A propor¸c˜ao da amostra a qual toma este valor modal deveria ser utilizada no lugar de uma medida formal de dispers˜ao.

Algumas vezes, podemos distinguir claramente ‘picos’ na frequˆencia dos valores registra-dos. Neste caso (chamado bimodal) dever´ıamos apresentar ambas as localiza¸c˜oes. Dados deste tipo s˜ao particularmente dif´ıceis de resumir (e analisar).

Exemplo. Dez pessoas registraram o n´umero de copos de cerveja que eles tomaram num

determinado s´abado:

0, 0, 0, 0, 0, 1, 2, 3, 3, 6

A moda ´e 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos adicionar mais informa¸c˜ao separando a amostra e dizendo que daqueles que tomaram cerveja a mediana foi de 3 copos.

(13)

2.4 Dados m´ultiplos

Os resultados de um estudo tipicamente envolver˜ao mais do que uma ´unica amostra de

dados como discutido at´e aqui. Representa¸c˜oes gr´aficas s˜ao ´uteis para comparar grupos

de dados ou para verificar se exitem rela¸c˜oes entre eles. Existem muitas possibilidades, mas a mais adequada depender´a das peculiaridades de cada conjunto de dados.

Al´em dos exemplos abaixo, podemos criar combina¸c˜oes de m´etodos j´a discutidos. Por exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir box-plots de altura lado a lado para homens e mulheres, ou gr´aficos ramo-e-folhas lado a lado (com as alturas dos homens `a esquerda do ramo, e as alturas das mulheres `a direita), ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam

ser facilmente comparados). Para um n´umero diferente de grupos, uma s´erie de box-plots

verticais funciona bem como um s´ımples resumo dos dados.

Para combina¸c˜oes de dados categ´oricos, uma s´erie de gr´aficos de setores podem ser pro-duzidos, i.e. dois gr´aficos de setores, um para homens e um para mulheres.

2.4.1 Gr´aficos de pontos

Para avaliar se existe uma rela¸c˜ao entre duas vari´aveis cont´ınuas, podemos produzir um

gr´afico de pontos. ´E importante que o eixo x fa¸ca sentido. Em geral faz pouco sentido

unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). S´ımbolos diferentes podem ser usados para diferentes grupos para adicionar uma nova dimens˜ao ao gr´afico. O gr´afico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino.

M M M M M M M M M M M M M M M M M M M M Height (cm) Weight (kg) 140 150 160 170 180 190 200 40 50 60 70 80 90 F F FF F F F F F F F F F F F F F

Para mais do que duas vari´aveis, pode-se produzir gr´aficos entre todos os pares poss´ıveis

(14)

2.4.2 Gr´afico temporal

Um caso especial de um gr´afico de pontos ´e um gr´afico temporal onde ‘tempo’ est´a

no eixo x. As medidas s˜ao feitas ao longo do tempo. Nestes casos ´e usual unir pontos sucessivos por retas, e ´e em geral uma boa pr´atica deixar o eixo x mais longo do que o eixo y.

Abaixo mostramos as temperaturas di´arias m´edias em Philadelphia, USA nos dois primei-ros meses de 1980. • • • • • • • • • • • • • • • ••• •• • • ••• • • • • • •• • • • • •• • • • • • • • • • •• • • • • • • • • • •• Day Average temperature 0 10 20 30 40 50 60 -10 -5 0 5

(15)

2.4.3 Ladder plot

O ladder plot n˜ao ´e um gr´afico do tipo padr˜ao mas pode ser ´util para visualizar dados

pareados. Considere o seguinte exemplo.

Um ornitologista deseja saber se um determinado local ´e usado por p´assaros migrat´orios de uma certa ra¸ca para engorda antes de migrar. Ele captura alguns p´assaros em Agosto e pesa-os, ent˜ao em Setembro ele tenta re-capturar os mesmos p´assaros e faz novas medidas. Ele re-capturou 10 dos p´assaros duas vezes, ambos em Agosto e Setembro. A tabela abaixo mostra as massas desses p´assaros.

Mass in August (g) Mass in September (g)

10.3 12.2 11.4 12.1 10.9 13.1 12.0 11.9 10.0 12.0 11.9 12.9 12.2 11.4 12.3 12.1 11.7 13.5 12.0 12.3

O ladder plot destes dados fica como segue:

Mass (g) of bird 10 11 12 13 August September • • • • • • • • • • • • • • • • • • • ´

E muito mais f´acil ver do gr´afico do que da tabela que os p´assaros tendem a engordar, e que aqueles que n˜ao engordaram tenderam a ser os maiores que provavelmente n˜ao necessitam de uma engorda extra.

(16)

2.5 Exerc´ıcios 1

1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas es-tat´ısticas descritivas, apontando caracter´ısticas principais observadas.

(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de estat´ıstica no primeiro exame do semestre:

30 35 37 40 40 49 51 54 54 55

57 58 60 60 62 62 65 67 74 89

(b) O n´umero de faltas de 20 trabalhadores num ano (ordenados por tamanho):

0 0 0 0 0 0 0 1 1 1

2 2 3 3 4 5 5 5 8 45

(c) O n´umero de exemplares de um jornal mensal em particular lidos por 20 pessoas

num ano:

0 1 11 0 0 0 2 12 0 0

12 1 0 0 0 0 12 0 11 0

2. Produza um gr´afico ramos-e-folhas para apresenta¸c˜ao dos dados de altura (em me-tros) de 20 mulheres sendo estudadas para uma certa condi¸c˜ao m´edica.

1.52 1.60 1.57 1.52 1.60

1.75 1.73 1.63 1.55 1.63

1.65 1.55 1.65 1.60 1.68

2.50 1.52 1.65 1.60 1.65

3. Os dados a seguir fornecem a concentra¸c˜ao de um determinado poluente (ppm) em 8 pontos de um afluente medidos antes e uma hora depois de um acidente ambiental:

Before After 4.67 5.44 4.97 6.11 5.11 6.49 5.17 6.61 5.33 6.67 6.22 6.67 6.50 6.78 7.00 7.89

Fa¸ca um gr´afico destes dados, e use o gr´afico para ajudar a avaliar se o acidente provocou um aumento significativo nos n´ıveis do poluente no afluente.

4. A tabela abaixo fornece o n´umero de grˆanulos de arenito por cm3 em 20 amostras

tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade (B).

(17)

A B 171 397 116 375 431 795 375 440 288 257 151 192 1283 902 752 503 554 1621 979 1252 295 1004 208 688 568 1378 426 771 958 435 675 377 2415 1104 410 700 1212 396 736 315

(a) Calcule as m´edias e desvios-padr˜ao desses duas amostras. (b) Fa¸ca histogramas dos dois conjuntos de dados, e compare-os.

(c) Qual ´e o m´ınimo, m´aximo, mediana, quartil inferior e quartil superior de cada grupo?

(d) Usando sua resposta ao item (c), construa boxplots para os dois conjuntos de dados - um diretamento acime do outro, ou lado a lado para facilitar a compara¸c˜ao.

(e) Para cada grupo, o dado ´e aproximadamente sim´etrico ou assim´etrico? Se assim´etrico, em que dire¸c˜ao?

(f) Vocˆe acha que existe uma diferen¸ca real entre os n´umeros de grˆanulos de

are-nito nas duas localidades, ou vocˆe acha que as diferen¸cas observadas poderiam ter simplesmente ocorrido como uma consequˆencia dos grupos consistirem de somente 20 amostras cada?

(g) Descreva as principais caracter´ısticas dos dados em uma ou duas senten¸cas.

5. O percentual de a¸c´ucar e sal em 9 cereais matinais mais populares foram medidos,

com os seguintes resultados:

Cereal a¸c´ucar sal

1 19 8 2 36 5 3 3 10 4 8 4 5 26 6 6 16 6 7 8 9 8 10 3 9 54 3

(a) Fa¸ca um gr´afico desses dados para investigar a rela¸c˜ao entre o conte´udo de

a¸c´ucar e sal nos cereais matinais.

(18)

3

Popula¸c˜

oes e amostras

3.1 Inferˆencia estat´ıstica

Inferˆencia estat´ıstica ´e o processo pelo qual estat´ısticos tiram conclus˜oes acerca da

popula¸c˜ao usando informa¸c˜ao de uma amostra.

Vocˆe pode estar familiar com o termo ‘popula¸c˜ao’ num sentido biol´ogico/geol´ogico. Em estat´ıstica, o termo n˜ao se refere necessariamente a pessoas, plantas, animais, etc. Ele poderia tamb´em se referir, por exemplo, a f´osseis, rochas e sedimentos num determinado local, etc.

A popula¸c˜ao se refere a todos os casos ou situa¸c˜oes as quais o pesquisador quer fazer

inferˆencias ou estimativas. Diferentes pesquisadores podem querer fazer inferˆencias acerca da concentra¸c˜ao de poluentes num determinado len¸col fre´atico; predizer a quantidade de petr´oleo num po¸co a ser perfurado e assim por diante.

Note que o investigador n˜ao est´a interessado em todos os aspectos da popula¸c˜ao. O pesquisador pode n˜ao estar interessado em estudar a concentra¸c˜ao de todos os tipos de poluentes, somente alguns poluentes mais importantes para seu estudo.

Uma amostra ´e um subconjunto da popula¸c˜ao usado para obter informa¸c˜ao acerca do todo.

Mas exatamente por quˆe tomamos uma amostra? Por quˆe n˜ao usamos a

popula¸c˜ao toda?

• custo alto para obter informa¸c˜ao da popula¸c˜ao toda

• tempo muito longo para obter informa¸c˜ao da popula¸c˜ao toda

• algumas vezes imposs´ıvel, por exemplo, estudo de polui¸c˜ao atmosf´erica • algumas vezes logicamente imposs´ıvel, por exemplo, em ensaios destrutivos.

(19)

Caracter´ısticas de uma popula¸c˜ao que diferem de um indiv´ıduo para outro e as quais

temos interesse em estudar s˜ao chamadas vari´aveis. Exemplos s˜ao comprimento, massa,

idade, temperatura, n´umero de ocorrˆencias, etc. Cada unidade (membro) da popula¸c˜ao

que ´e escolhido como parte de uma amostra fornece uma medida de uma ou mais vari´aveis,

chamadas observa¸c˜oes.

3.2 Princ´ıpios de estima¸c˜ao

Utilizamos estimativas de uma amostra como nosso “melhor chute” para os verdadei-ros valores populacionais. Exemplos s˜ao a m´edia amostral, o desvio padr˜ao amostral, a mediana amostral, os quais estimam a verdadeira m´edia, desvio padr˜ao e mediana da popula¸c˜ao (que s˜ao desconhecidos). Os verdadeiros (desconhecidos) valores populacionais

s˜ao chamados parˆametros.

Note que estat´ısticas s˜ao usualmente representadas por letras Romanas, (por exemplo, ¯x

para a m´edia amostral, s para o desvio padr˜ao amostral), enquanto que parˆametros s˜ao usualmente representados por letras Gregas (por exemplo, µ para a m´edia populacional, σ para o desvio padr˜ao populacional).

´

E claro que `a medida que a amostra aumenta, mais informa¸c˜ao n´os teremos acerca da popula¸c˜ao de interesse, e portanto mais precisa ser˜ao as estimativas dos parˆametros de interesse.

(20)

3.3 Obtendo uma amostra

Obtemos uma amostra para fazer inferˆencias de uma popula¸c˜ao. Nossas inferˆencias s˜ao v´alidas somente se a amostra ´e representativa da popula¸c˜ao. Na pr´atica n˜ao existe forma de garantir isto sem ter informa¸c˜ao da popula¸c˜ao inteira para comparar com a amostra. E em tais circunstˆancias n˜ao haveria necessidade de amostragem!

Ao inv´es disso, podemos assegurar que n˜ao existem v´ıcios sistem´aticos em nossa amostra

atrav´es de uma sele¸c˜ao aleat´oria dos membros da popula¸c˜ao. Uma amostra aleat´oria

independente ´e uma amostra selecionada de tal forma que

1. todos os membros da popula¸c˜ao tˆem a mesma chance de serem selecionados;

2. cada combina¸c˜ao poss´ıvel de um dado n´umero de membros tem a mesma chance de

ser selecionada.

Em princ´ıpio, a melhor forma de obter uma amostra aleat´oria de tamanho n ´e ter uma

lista de todos os membros da popula¸c˜ao, dar a todos um n´umero digamos de 1 a N , e

ent˜ao escolher aleatoriamente n n´umeros de 1 a N para definir a amostra. ´E claro que na

pr´atica isto n˜ao ´e exequ´ıvel, especialmente quando a popula¸c˜ao ´e infinita.

Na maioria dos casos ´e dif´ıcil obter amostras aleat´orias. Considere o seguinte diagrama que mostra a ‘popula¸c˜ao’ de circulos. Pense neles como se fossem grˆanulos de tamanhos

diferentes. O diˆametro m´edio destes circulos ´e mm.

Suponha que selecionemos uma amostra de 5 destes c´ırculos jogando um l´apis sobre o papel repetidamente at´e que tenhamos atingido 5 circulos. Qual ´e o diˆametro m´edio de

(21)

No exemplo acima, o esquema amostral causou um v´ıcio. Um v´ıcio similar seria obtido por exemplo na amostragem de um particular tipo de animal – pode ser que os animais que se consegue capturar e medir s˜ao aqueles que n˜ao podem correr t˜ao r´apido, ou ao usar uma armadinha, vocˆe pode amostrar somente os animais mais famintos, etc.

Sempre que uma amostra ´e obtida, o processo de amostragem deve estar bem documentado de tal forma que quais inferˆencias retiradas acerca da popula¸c˜ao pode avaliadas `a luz da estrat´egia amostral.

(22)

4

Distribui¸c˜

oes te´

oricas de frequˆ

encias

Como visto na Se¸c˜ao 2, as distribui¸c˜oes dos dados podem ter uma variedade de formas, incluindo formas sim´etricas e n˜ao sim´etricas. Introduziremos aqui alguns dos modelos matem´aticos mais comumente usados para tais dados.

4.1 A distribui¸c˜ao Normal

A distribui¸c˜ao Normal ´e a mais familiar das distribui¸c˜oes de probabilidade e tamb´em

uma das mais importantes em estat´ıstica. Esta distribui¸c˜ao tem uma forma de sino.

x f(x) -4 -2 0 2 4 0.0 0.1 0.2 0.3 0.4

A equa¸c˜ao da curva Normal ´e especificada usando 2 parˆametros: a m´edia populacional

µ, e o desvio padr˜ao populacional σ, ou equivalentemente a variˆancia populacional σ2.

Denotamos N(µ, σ2) `a curva Normal com m´edia µ e variˆancia σ2. A m´edia refere-se ao

centro da distribui¸c˜ao e o desvio padr˜ao ao espalhamento de curva. A distribui¸c˜ao normal ´e sim´etrica em torno da m´edia o que implica que e m´edia, a mediana e a moda s˜ao todas coincidentes. Para referˆencia, a equa¸c˜ao da curva ´e

f (x) = p 1 (2πσ2)exp ( −(x − µ)2 2 ) . (1)

Felizmente, vocˆe n˜ao tem que memorizar esta equa¸c˜ao. O importante ´e que vocˆe entenda como a curva ´e afetada pelos valores num´ericos de µ e σ. isto ´e mostrado no diagrama abaixo.

A ´area sob a curva normal (na verdade abaixo de qualquer fun¸c˜ao de densidade de pro-babilidade) ´e 1. Ent˜ao, para quaisquer dois valores espec´ıficos podemos determinar a

(23)

x f(x) 0 5 10 0.0 0.2 0.4 0.6 0.8 N(0,1) N(3,1) N(6,.25) N(6,4)

propor¸c˜ao de ´area sob a curva entre esses dois valores. Para a distribui¸c˜ao Normal, a propor¸c˜ao de valores caindo dentro de um, dois, ou trˆes desvios padr˜ao da m´edia s˜ao:

Range Proportion

µ ± 1σ 68.3%

µ ± 2σ 95.5%

µ ± 3σ 99.7%

Este resultado ´e usado da seguinte maneira. Suponha que os comprimentos de um parti-cular tipo de peixe podem ser descritos por uma distribui¸c˜ao normal, com m´edia 140mm e desvio padr˜ao 15mm. Podemos calcular a propor¸c˜ao dos peixes que tˆem comprimen-tos entre 110 e 170mm, por exemplo, como a propor¸c˜ao da ´area sob a curva entre 110 e 170mm.

Ent˜ao em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e 170mm.

Na pr´atica desejamos calcular probabilidades para diferentes valores de µ e σ. Para isso,

a vari´avel X cuja distribui¸c˜ao ´e N (µ, σ2) ´e transformada numa forma padronizada Z com

distribui¸c˜ao N (0, 1) (distribui¸c˜ao normal padr˜ao) pois tal distribui¸c˜ao ´e tabelada. A

quantidade Z ´e dada por

Z = X − µ

σ (2)

Exemplo: A concentra¸c˜ao de um poluente em ´agua liberada por uma f´abrica tem distri-bui¸c˜ao N(8,1.5). Qual a chance, de que num dado dia, a concentra¸c˜ao do poluente exceda o limite regulat´orio de 10 ppm?

A solu¸c˜ao do problema resume-se em determinar a propor¸c˜ao da distribui¸c˜ao que est´a acima de 10 ppm, ie P (X > 10). Usando a estat´ıstica z temos:

P (X > 10) = P (Z > 10 − 8

(24)

Portanto, espera-se que a ´agua liberada pela f´abrica exceda os limites regulat´orios cerca de 9% do tempo.

Exerc´ıcio: A concentra¸c˜ao de cadmio em cinzas de um certo lixo radioativo tem distri-bui¸c˜ao N(1,0.72). Quais s˜ao as chances de que uma amostra aleat´oria das cinzas tenha uma concentra¸c˜ao de cadmio entre 0.5 e 1.75 ppm?

(25)

4.2 A distribui¸c˜ao Binomial

Suponha que n experimentos independentes, ou ensaios, s˜ao executados, onde n ´e um

umero fixo, e que cada experimento resulta num “sucesso” com proabilidade p e numa

“falha” com probabilidade 1 − p. O n´umero total de sucessos, X, ´e uma vari´avel aleat´oria

com parˆametros n e p.

Por exemplo, uma moeda ´e lan¸cada 10 vezes e o n´umero total de caras ´e contado (aqui

“cara” ´e um sucesso).

A probabilidade que X = k, denotada por P (k), pode ser encontrada como:

P (X = k) = P (k) = n!

k!(n − k)!p

k(1 − p)n−k. (4)

A m´edia de um vari´avel aleat´oria Binomial ´e np e a variˆancia ´e np(1 − p).

Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo albinismo (o qual ´e recessivo), n´os encontremos um casamento no qual sabe-se que ambos os parceiros s˜ao heterozigotos para o gene albino. De acordo com a teoria Mendeliana, a probabilidade de que um filho desse casal seja albino ´e um quarto. (Ent˜ao a probabilidade de n˜ao ser

albino ´e 34.)

Agora considere o mesmo casal com 2 crian¸cas. A chance de que ambas sejam albinas ´e (1

4)2 = 161 = 0.0625. A desma forma, a chance de ambas serem normais ´e (34)2 =

9

16 = 0.5625. Portanto, a probabilidade de que somente uma seja um albina deve ser

1 − 161 169 = 166 = 38 = 0.375. Alternativamente, poderiamos ter usado a formula acima

com n = 2, p = 1

4, and k = 1.

Se agora considerarmos a fam´ılia com n = 5 crian¸cas, as probabilidades de existam k =

0, 1, 2, . . . , 5 crian¸cas albinas, onde a probabilidade de albinismo ´e p = 14, s˜ao dadas por

P (k) = 5! k!(5 − k)! µ 1 4 ¶kµ 3 4 ¶5−k (5) as quais ficam como segue.

0 1 2 3 4 5 0.0 0.1 0.2 0.3 0.4

(26)

4.3 A distribui¸c˜ao Poisson

Uma outra distribui¸c˜ao comum ´e a distribui¸c˜ao Poisson, e ´e frequentemente usada

para modelar dados de contagem, por exemplo, para descrever o n´umero de nmet´oides

encontrados em amostras de solo, o n´umero di´ario de novos casos de cˆancer de mama, ou

o n´umero de c´elulas contadas usando um hemocitrˆometro. O histograma abaixo mostra o

n´umero de organismos encontrados em cada um de 400 quadrados pequenos.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 20 40 60 80

A distribui¸c˜ao Poisson tem um parˆametro, λ, e a probabilidade de obter exatamente x indiv´ıduos ´e dada por

P (x) = λxe−λ

x! . (6)

Quando λ = 4.68, por exemplo, a distribui¸c˜ao fica como segue.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

0.0

0.05

0.10

0.15

A variˆancia de uma Poisson ´e igual a sua m´edia, The variance of a Poisson distribution is equal to its mean, λ.

(27)

4.4 Exerc´ıcios 2

1. Considere uma distribui¸c˜ao normal com m´edia 10 e desvio padr˜ao 3. (a) Desenhe um esbo¸co desta distribui¸c˜ao.

(b) Qual ´e a propor¸c˜ao da ´area sob a curva entre 7 e 13?

2. Usinas nucleares que utilizam ´agua para refrigera¸c˜ao de seus condensadores algumas vezes liberam ´agua quente em rios, lagos ou oceanos. Sabe-se que a ´agua quente acima de certa temperatura tem um efeito indesejado sobre plantas e animais que vivem nesses ambientes. Suponha que a alta temperatura liberada por uma certa

usina nuclear tem uma distribui¸c˜ao Normal com m´edia 5C e um desvio padr˜ao de

0.5C.

(a) Fa¸ca um esbo¸co da distribui¸c˜ao.

(b) Qual o percentual de dias nos quais o aumento da temperatura ´e maior do que

5.5C?

3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma m´edia de 72.9 batidas por minuto (bpm) e um desvio padr˜ao de 11.0 bpm foram obtidos. Um his-tograma dos dados mostra uma clara forma normal. Dˆe uma amplitude de referˆencia de 95% para pulsos em repouso de pessoas sadias com base nesses dados.

4. Vocˆe leva se cachorro o veterin´ario e descobre atrav´es de um exame de ultrasonografia que ela est´a gr´avida com uma ninhada de 8 filhotes.

(a) Qual ´e a probabilidade de que exatamente 3 dos filhotes sejam fˆemeas?

(b) Qual ´e a probabilidade de que existam um n´umero igual de machos e fˆemeas?

(c) Qual ´e a probabilidade de que existam mais machos do fˆemeas?

5. Um investigador est´a interessado no n´umero de ovos depositados por uma esp´ecie

de p´assaro. Na primavera, ele procura e acha 80 ninhos. O n´umero m´edio de ovos

por ninho foi 3.8 e o desvio padr˜ao foi 1.9. Porque a variˆancia ´e aproximadamente

igual ´a m´edia, ele acha que pode ser razo´avel descrever o n´umero de ovos por ninho

como tendo uma distribui¸c˜ao Poisson com m´edia 3.8.

(a) Fa¸ca o gr´afico dessa distribui¸c˜ao como em suas notas de aula.

(b) Se esta realmente representa a distribui¸c˜ao populacional, qual seria a proabili-dade de encontrar um ninho com mais do que 5 ovos?

(28)

6. Acredita-se que existam n´umeros iguais de machos e fˆemeas de uma certa esp´ecie de peixe num grande lago. Um pescador pesca 43 peixes e encontra que 32 deles s˜ao

machos. Isto provocaria d´uvida na afirma¸c˜ao acima de que exite um balan¸co entre

machos e fˆemeas no lago? Justifique sua resposta utilizando os recursos estat´ısticos de que disp˜oe no momento.

(29)

5

Intervalos de Confian¸ca

5.1 A id´eia b´asica de intervalos de confian¸ca

Suponha que estejamos interessados num parˆametro populacional verdadeiro (mas

desconhecido) θ. Podemos estimar o parˆametro θ usando informa¸c˜ao de nossa amostra.

Chamamos o ´unico n´umero que representa o valor mais plaus´ıvel do parˆametro (baseado

nos dados amostrais) de uma estimativa pontual de θ. Contudo, sabemos que o valor estimado na maior parte das vezes n˜ao ser´a exatamente igual ao valor verdadeiro. Ent˜ao, tamb´em seria interessante encontrar um intervalo de confian¸ca que forne¸ca um intervalo de valores plaus´ıveis para o parˆametro baseado nos dados amostrais.

Um intervalo de confian¸ca de 95% para um parˆametro populacional fornece um intervalo no qual estariamos 95% confiantes de cobertura

do verdadeiro valor do parˆametro.

Tecnicamente, 95% de todos os intervalos de confian¸ca que construirmos conter˜ao o ver-dadeiro valor do parˆametro (dado que todas as suposi¸c˜oes envolvidas estejam corretas). Ent˜ao se obtivermos um intervalo de confian¸ca para o parˆametro θ para cada uma dentre 100 amostras aleat´orias da popula¸c˜ao, somente 5, em m´edia destes intervalos de confian¸ca n˜ao conter˜ao θ.

Podemos obter intervalos de confian¸ca de 95% para:

m´edias, diferen¸cas de m´edias, propor¸c˜oes, diferen¸cas em propor¸c˜oes, etc.

Podemos tamb´em criar intervalos de confian¸ca de 90%, 99%, 99.9%, etc, mas os intervalos de confian¸ca de 95% s˜ao os mais utilizados.

(30)

5.2 Teorema Central do Limite

Uma raz˜ao para a distribui¸c˜ao Normal ser considerada t˜ao importante ´e porque qualquer que seja a distribui¸c˜ao da vari´avel de interesse para grande amostras, a distribui¸c˜ao

das m´edias amostrais ser˜ao aproximadamente normalmente distribu´ıdas, e

ten-der˜ao a uma distribui¸c˜ao normal `a medida que o tamanho de amostra crescer. Ent˜ao podemos ter uma vari´avel original com uma distribui¸c˜ao muito diferente da Normal (pode at´e mesmo ser discreta), mas se tomarmos v´arias amostras grandes desta distribui¸c˜ao, e ent˜ao fizermos um histograma das m´edias amostrais, a forma se parecer´a como uma curva Normal.

A distribui¸c˜ao da m´edia amostral ¯X ´e aproximadamente

Normal com m´edia µ e desvio padr˜ao σ/√n.

Aqui µ e σ s˜ao a m´edia e o desvio padr˜ao populacionais das medidas individuais X, e n ´e o tamanho amostral. Denota-se

¯

X ∼ N (µ, σ2/n).

A aproxima¸c˜ao para a normal melhora `a medida que o tamanho amostral cresce. Este re-sultado ´e conhecido como o Teorema Central do Limite e ´e not´avel porque permite-nos conduzir alguns procedimentos de inferˆencia sem qualquer conhecimento da distribui¸c˜ao da popula¸c˜ao.

5.3 Exemplo simulado

Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagrama na pr´oxima p´agina sumariza os resultados de um experimento no qual foi utilizado um com-putador para gerar 2000 observa¸c˜oes de duas distribui¸c˜oes bem diferentes (linha superior). N´os ent˜ao geramos uma amostra de tamanho 2 de cada distribui¸c˜ao e calculamos a m´edia. Este procedimento foi repetido 1999 vezes e a segunda linha mostra os histogramas das m´edias resuktantes das amostras de tamanho dois. Isto foi repetido com m´edia amostrais onde as amostras s˜ao de tamanhos 5 (terceira linha) e 10 (quarta linha).

Note como a forma da distribui¸c˜ao muda `a medida que se muda de uma linha para a pr´oxima, e como as duas distribui¸c˜oes em cada linha tornam-se mais similares nas suas formas `a medida que o tamanho das amostras aumenta. Ainda mais, cada distribui¸c˜ao parece mais e mais com uma distribui¸c˜ao Normal. N˜ao ´e necess´ario uma amostra de tamanho muito grande para ver uma forma Normal.

As m´edia populacionais para as duas distribui¸c˜oes s˜ao 5 e 3 respectivamente. Note como, quanto maior o tamanho de amostra mais perto as m´edias amostrais tendem a estar da m´edia populacional.

(31)

0 2 4 6 8 10 0 100 200 300 400 x 0 2 4 6 8 10 0 100 200 300 400 y 0 2 4 6 8 10 0 100 200 300 400 (x1+x2)/2 0 2 4 6 8 10 0 100 200 300 400 (y1+y2)/2 0 2 4 6 8 10 0 100 200 300 400 (x1+x2+..+x5)/5 0 2 4 6 8 10 0 100 200 300 400 (y1+y2+..+y5)/5 0 2 4 6 8 10 0 100 200 300 400 (x1+x2+..+x10)/10 0 2 4 6 8 10 0 100 200 300 400 (y1+y2+..y10)/10

(32)

5.4 Intervalos de confian¸ca de 95% para uma m´edia

Na se¸c˜ao anterior vimos que para uma amostra suficientemente grande a distribui¸c˜ao das

m´edias amostrais em torno da m´edia populacional ´e Normal com desvio padr˜ao σ/√n.

Chamamos de σ/√n o erro padr˜ao (SE) da m´edia, uma vez que quanto menor seu valos.

tanto mais pr´oximas estar˜ao as m´edias amostrais da m´edia populacional µ (i.e. tanto menor ser´a o erro).

m´edia populacional = µ

desvio padr˜ao populacional = σ

S.E. da m´edia = σ/√n

Isto significa que 68.3% de todas as m´edias amostrais cair˜ao dentro de ±1 SE da m´edia populacional µ. Similarmente 95% de todas as m´edias amostrais cair˜ao dentro de ±1.96 × SE de µ.

ent˜ao intervalos da forma

x − 1.96 × √σ

n , ¯x + 1.96 × σ

n) conter˜ao a verdadeira m´edia populacional µ 95% das vezes.

Um problema com a constru¸c˜ao de tais intervalos ´e que n˜ao sabemos o verdadeiro des-vio padr˜ao populacional σ. Para grandes tamanhos amostrais, contudo, o desdes-vio padr˜ao amostral s ser´a uma boa estimativa de σ. Portanto, podemos substituir σ por s de modo que podemos calcular o erro padr˜ao como

SE = s/√n,

e um intervalo de confian¸ca de aproximadamente 95% para µ ´e:x − 1.96 ×√s

n , ¯x + 1.96 × s

n).

Este tipo de intervalo de confian¸ca para a m´edia pode ser usado para grandes amostras, independentemente da distribui¸c˜ao da vari´avel original.

(33)

5.5 intervalos de confian¸ca mais exatos

Para amostras pequenas, onde s ´e uma estimativa menos confi´avel de σ, devemos construir nosso intervalo de confian¸ca de uma forma ligeiramente diferente.

Ao inv´es de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossa redu¸c˜ao na confian¸ca. Obtemos o valor requerido da tabela de distribui¸c˜ao t. Tomamos o valor correspondente `a linha r = n − 1 graus de liberdade. Note que quanto menor n, maiores os valores de t. Ent˜ao um intervalo de confian¸ca exato ´e

x − t(n−1,0.05)×√s

n , ¯x + t(n−1,0.05)× s

n).

Note ainda que `a medida que n cresce, o valor de t torna-se pr´oximo a 1.96.

Repare que se a distribui¸c˜ao da vari´avel original ´e muito distante de ser normalmente distribu´ıda, e o tamanho amostral ´e muito pequeno, ent˜ao as m´edias amostrais n˜ao ter˜ao uma distribui¸c˜ao aproximadamente normal e portanto este tipo de intervalo de confian¸ca n˜ao ser´a muito preciso e n˜ao deveria ser utilizado.

(34)

A distribui¸c˜

ao t

Valores de t para que P (| T |> t) = p, onde T tem um distribui¸c˜ao T de Student com r graus de liberdade. p 0.20 0.10 0.05 0.01 0.001 1 3.078 6.314 12.706 63.657 636.619 2 1.886 2.920 4.303 9.925 31.599 3 1.638 2.353 3.182 5.841 12.924 4 1.533 2.132 2.776 4.604 8.610 5 1.476 2.015 2.571 4.032 6.869 6 1.440 1.943 2.447 3.707 5.959 7 1.415 1.895 2.365 3.499 5.408 8 1.397 1.860 2.306 3.355 5.041 9 1.383 1.833 2.262 3.250 4.781 10 1.372 1.812 2.228 3.169 4.587 11 1.363 1.796 2.201 3.106 4.437 12 1.356 1.782 2.179 3.055 4.318 13 1.350 1.771 2.160 3.012 4.221 14 1.345 1.761 2.145 2.977 4.140 15 1.341 1.753 2.131 2.947 4.073 16 1.337 1.746 2.120 2.921 4.015 r 17 1.333 1.740 2.110 2.898 3.965 18 1.330 1.734 2.101 2.878 3.922 19 1.328 1.729 2.093 2.861 3.883 20 1.325 1.725 2.086 2.845 3.850 21 1.323 1.721 2.080 2.831 3.819 22 1.321 1.717 2.074 2.819 3.792 23 1.319 1.714 2.069 2.807 3.768 24 1.318 1.711 2.064 2.797 3.745 25 1.316 1.708 2.060 2.787 3.725 26 1.315 1.706 2.056 2.779 3.707 27 1.314 1.703 2.052 2.771 3.690 28 1.313 1.701 2.048 2.763 3.674 29 1.311 1.699 2.045 2.756 3.659 30 1.310 1.697 2.042 2.750 3.646 40 1.303 1.684 2.021 2.704 3.551 50 1.299 1.676 2.009 2.678 3.496 60 1.296 1.671 2.000 2.660 3.460 70 1.294 1.667 1.994 2.648 3.435 80 1.292 1.664 1.990 2.639 3.416 90 1.291 1.662 1.987 2.632 3.402 100 1.290 1.660 1.984 2.626 3.390 1.282 1.645 1.960 2.576 3.291

(35)

5.6 Exemplos

5.6.1 Diˆametro de ´arvores castanheiras

A seguir encontra-se uma amostra de 10 ´arvores castanheiras todas com 8 anos de idade numa certa floresta. O diˆametro (polegadas) das ´arvores foram medidos `a uma altura de 3 p´es:

19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1

Queremos encontrar um intervalo de confian¸ca de 95% para o verdadeiro diˆametro m´edio de todas as ´arvores castanheiras dessa idade na floresta. Usando uma calculadora,

encon-tramos que ¯x = e que s = . O erro padr˜ao ´e portanto:

SE = √s

n = .

Temos uma amostra de tamanho n = 10, ent˜ao da tabela da distribui¸c˜ao t temos que

t = .

Ent˜ao o intervalo de confian¸ca de 95% para a m´edia populacional ´e ¯

x ± t × SE

Portanto estamos 95% confiantes de que o diˆametro m´edio da popula¸c˜ao da qual a amostra

foi retirada est´a entre e .

Quais suposi¸c˜oes foram feitas? Podemos checar essas suposi¸c˜oes?

5.6.2 Comprimento de plantas

Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foram plantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximadamente normal, e a m´edia amostral e o desvio padr˜ao amostral foram 74mm and 2.34mm, respec-tivamente. Construa um intervalo de confian¸ca para o comprimento m´edio populacional de plantes dessa mesma esp´ecie.

(36)

5.7 Exerc´ıcios 3

1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma m´edia de 72.9 batidas por minuto (bpm) e um desvio padr˜ao de 11.0 bpm foram obtidos. Construa um intervalo de confian¸ca de 95% para a pulsa¸c˜ao m´edia em repouso de pessoas sadias com base nesses dados.

2. Tendo sido medido o eixo maior de 9 gr˜aos de quartzo de um corpo arenoso em uma lˆamina de arenito, obteve-se um comprimento amostral m´edio de 1,5mm e um desvio padr˜ao de 0,3mm. Deseja-se construir um intervalo de confian¸ca para o comprimento m´edio dos gr˜aos de quartzo do corpo arenoso.

3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos. O QI m´edio foi 108.08, e o desvio padr˜ao foi 14.38.

• Calcule um intervalo de confian¸ca de 95% para o QI m´edio populacional dos meninos entre 6-7 anos de idade em Curitiba usando estes dados.

• Interprete o intervalo de confian¸ca com palavras.

• Foi necess´ario assumir que os QIs tˆem distribui¸c˜ao normal neste caso? Por quˆe? 4. A seguinte tabela mostra os QIs de crian¸cas por classe social dos pais.

Classe social M´edia DP N´umero Limite inferior Limite superior

I Profissional 112.27 13.16 30 107.36 117.18 II Gerencial 112.65 11.01 78 IIIa N˜ao-Manual (cl´erico) 108.86 13.94 28 IIIb Manual (com pr´atica) 104.38 14.41 152 IV Manual

(com pouca pr´atica) 96.97 10.13 37

V Manual

(sem pr´atica) 98.85 14.02 20

• Complete as duas ´ultimas colunas, as quais contem intervalos de confian¸ca de 95% para o QI m´edio. Ilustre os IC graficamente.

(37)

5.8 Intervalos de confian¸ca para uma propor¸c˜ao

Pesquisadores frequentemente expressam a frequˆencia de ocorrˆencia de um item numa amostra como uma propor¸c˜ao do total. Por exemplo, uma amostra de larvas de mosquito coletadas de um lago com ´agua limpa parada contem 80 larvas das quais 60 s˜ao Aedes detritus. A propor¸c˜ao daquela esp´ecie na amostra ´e 60/80 = 0.75 ou 75%. Considerando esta amostra uma amostra aleat´oria, esta propor¸c˜ao ´e uma estimativa da propor¸c˜ao total populacional. Outras amostras forneceriam estimativas ligeiramente diferentes daquela propor¸c˜ao.

Seja n o tamanho da amostra e seja x o n´umero observado do evento de interesse. Ent˜ao

estimamos a propor¸c˜ao populacional p com a propor¸c˜ao observada ˆp = x/n.

Da mesma forma que um conjunto de m´edias amostrais s˜ao distribu´ıdas nas proximidades

da m´edia populacional, as propor¸c˜oes amostrais ˆp s˜ao distribu´ıdas ao redor da verdadeira

propor¸c˜ao populacional p. Devido ao Teorema Central do Limite, para n grande e p

n˜ao muito pr´oximo de 0 ou 1, a distribui¸c˜ao de ˆp ser´a aproximadamente normalmente

distribu´ıda com m´edia p e um desvio padr˜ao dado por s p(1 − p) n . Chamamos SE= q p(1−p)

n de erro padr˜ao da propor¸c˜ao amostral. Podemos usar isto na

constru¸c˜ao de um intervalo de confian¸ca para a verdadeira propor¸c˜ao p. Um intervalo de confian¸ca de aproximadamente 95% para p ´e portanto

p − 1.96 × SE , ˆp + 1.96 × SE) onde SE = s ˆ p(1 − ˆp) n .

Note que n˜ao sabemos o verdadeiro valor de p, e portanto usamos ˆp na f´ormula acima

para estimar SE.

Uma regra geral ´e que este intervalo de confian¸ca ´e v´alido quando quando temos ambos nˆp e n(1 − ˆp) maiores do que digamos 10.

Em alguns livros o divisor n − 1 ´e utlizado. N˜ao se preocupe quanto a isso; o intervalo resultante n˜ao ser´a notavelmente diferente.

5.8.1 Exemplo

Calcule um intervalo de confian¸ca de 95% para a propor¸c˜ao de larvas de mosquito no lago da esp´ecie Aedes detritus. Interprete os resultados.

(38)

5.9 Compara¸c˜ao de intervalos de confian¸ca

Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e fˆemeas. Algumas vezes pode-se construir um intervalo de confian¸ca de 95% para a m´edia para cada um dos grupos, e ent˜ao contr´oi-se um gr´afico com esses intervalos contra um eixo comum para verificar se existe uma interse¸c˜ao (i.e. existem alguns valores em comum). Se os intervalos n˜ao se sobrep˜oem, ent˜ao temos (pelo menos) 95% de confian¸ca de que as

verdadeiras m´edias n˜ao s˜ao iguais. Embora estes gr´aficos sejam ´uteis para visualiza¸c˜ao,

utilizaremos um aboradgem mais formal (veja Se¸c˜ao 7) para construir um intervalo de confian¸ca para a diferen¸ca entre duas m´edias ou a diferen¸ca entre duas propor¸c˜oes.

5.9.1 Exemplo

Considere os dados de um estudo investigando a existˆencia de um balan¸co entre a por¸c˜ao de peixes machos e fˆemeas de uma certa esp´ecie em dois lagos distintos. A pro-por¸c˜ao observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturados e no segundo foi 60% dentre 50. Podemos agora construir intervalos de confian¸ca para as percentagens correspondente nas popula¸c˜oes dos dois lagos.

5.10 Exerc´ıcios 4

1. Um amigo sugere que vocˆe lance uma moeda para ajudar vocˆe a tomar uma decis˜ao muito importante, o resultado tamb´em o afetar´a. Seu amigo sugere que vocˆe escolha cara para tomar a decis˜ao A, e coroa para tomar a decis˜ao B a qual ´e a preferida

por ele. O ´unico problema ´e que seu amigo insiste que vocˆe use uma moeda “da

sorte” dele. Vocˆe fica um pouco suspeito e decide fazer um experimento enquanto seu amigo n˜ao est´a olhando. Vocˆe lan¸ca a moeda 40 vezes e cara aparece somente 13 vezes. Construa um intervalo de 95% de confian¸ca para a verdadeira propor¸c˜ao de caras p para ajud´a-lo a decidir se vocˆe acredita ou n˜ao que a moeda ´e balanceada. O que vocˆe conclui?

2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam no candidato X. Com uma confian¸ca de 90%, o que vocˆe pode dizer acerca da propor¸c˜ao real de votos aquele candidato ter´a?

3. Dentre 100 peixes capturados num certo lago, 18 n˜ao estavam apropriados para consumo devido aos n´ıveis de polui¸c˜ao do ambiente. Construa um intervalo de confian¸ca de 99% para a correspondente verdadeira propor¸c˜ao.

(39)

6

Testes de Hip´

oteses

6.1 Introdu¸c˜ao e nota¸c˜ao

Em geral, intervalos de confian¸ca s˜ao a forma mais informativa de apresentar os achados pricipais de um estudo. Contudo, algumas vezes existe um particular interesse em decidir sobre a verdade ou n˜ao de uma hip´otese espec´ıfica (se dois grupos tˆem a mesma m´edia ou n˜ao, ou se o parˆametro populacional tem um valor em particular ou n˜ao). Teste

de hip´oteses fornece-nos a estrutura para que fa¸camos isto. Veremos que intervalos de

confian¸ca e testes de hip´oteses est˜ao intimamente relacionados.

6.1.1 Os p´assaros migrat´orios engordam antes de migrar?

Considere os dados coletados pelo ornitologista na p´agina 15. Achamos apropriado apre-sentar os dados na forma de um ladder plot. Agora ´e natural perguntar se em m´edia estes p´assaros engordam entre Agosto e Setembro. Somente 10 p´assaros foram capturados e seu peso m´edio nas duas ocasi˜oes foram 11.47 e 12.35 ent˜ao o peso m´edio aumentou para esta amostra em particular. (Note que o mesmo conjunto de p´assaros foram medidos ambas as vezes.) Podemos generalizar para o resto dos p´assaros que n˜ao foram capturados? Ser´a que esta diferen¸ca poderia ser devida simplesmente ao acaso?

Queremos testar a hip´otese nula (H0) de que, em m´edia, n˜ao existe mudan¸ca no peso

dos p´assaros. Assumiremos que os 10 p´assaros foram uma amostra aleat´oria de todos os p´assaros migradores daquela esp´ecie e usaremos primeiramente o que aprendemos sobre intervalos de confian¸ca para responder nossas perguntas.

Primeiro vamos calcular as mudan¸cas de peso (Setembro-Agosto): 1.9 0.7 2.2 − 0.1 2.0 1.0 − 0.8 − 0.2 1.8 0.3

Seja µ a mudan¸ca m´edia de peso na popula¸c˜ao. Ent˜ao nossa hip´otese nula H0e a hip´otese

alternativa H1 podem ser escritas como segue:

H0 : µ = 0, H1 : µ 6= 0.

Um procedimento ´util ´e calcular um intervalo de confian¸ca para a m´edia populacional µ

como descrito na Se¸c˜ao 5.5, e ver ser o intervalo inclui 0 como um valor plaus´ıvel.

Agora n = 10, ¯x = 0.88 e s = 1.065 para as diferen¸cas, ent˜ao

SE = s/√n = 1.065/√10 = 0.337,

e um valor-t de 2.262 ´e obtido da coluna P = 0.05 e linha r = n − 1 = 9. Um intervalo de confian¸ca de 95% para µ ´e portanto

(0.88 − 2.262 × 0.337, 0.88 + 2.262 × 0.337) = (0.12, 1.64). O intervalo n˜ao contem o valor 0, fornecendo evidˆencias contra a hip´otese nula.

(40)

Podemos dizer: “existem evidˆencias significativas (P < 0.05) de que, em m´edia, os p´assaros da esp´ecie estudada mudam de peso de Agosto para Setembro. Estamos 95% confiantes de que em m´edia os pesos aumentam por um montante entre 0.12 e 1.64 gramas.” Mas e o intervalo de 99%? Ser´a que ele conteria o valor 0? Este intervalo seria mais amplo e ent˜ao ´e mais prov´avel que ele contenha 0. Se ele n˜ao incluir 0, isto indicaria uma

evidˆencia ainda mais forte contra H0.

Calculando o intervalo de confian¸ca exatamente da mesma forma, exceto que desta vez precisamos olhar na coluna P = 0.01 para obter t = 3.250:

(0.88 − 3.250 × 0.337, 0.88 + 3.250 × 0.337) = (−0.21, 1.97). Como esperado, este ´e mais amplo, e agora inclui o valor 0.

Podemos agora dizer: “n˜ao existem evidˆencias significativas ao n´ıvel de 1% de que, em m´edia, os p´assaros da esp´ecie estudada mudam de peso de Agosto para Setembro.” O que n´os acabamos de fazer foi conduzir um teste perfeitamente v´alido para a hip´otese nula usando intervalos de confian¸ca. Podemos fazer o teste mais rapidamente e obter exatamente as mesmas conclus˜oes pelo seguinte procedimento:

• Calcule t = (¯x − 0)/SE = 0.88/0.337 = 2.61, o n´umero de erros padr˜ao que ¯x dista de 0.

• Compare este valor de t com aqueles na linha r = n − 1 = 9 da tabela.

• Para este exemplo, t = 2.61 o qual est´a entre os valores nas colunas P = 0.01 e P = 0.05. Ent˜ao nosso valor deve corresponder a um P entre estes e portanto devemos ter 0.01 < P < 0.05. (P ´e a probabilidade de observar um valor de t t˜ao grande ou mais extremo do que 2.61 se µ = 0.)

(41)

6.2 Procedimento geral de teste

1. Estabele¸ca a hip´otese nula, H0 e a hip´otese alternativa H1.

2. Decida qual oteste a ser usado, checando se este ´e v´alido para o seu problema. 3. Calcule a estat´ıstica de teste, T.

4. Encontre a probabilidade (p-valor) de observar um valor t˜ao extremo ou maior do que T se a hip´otese nula ´e de fato verdadeira. Vocˆe precisar´a se referir aos valores cr´ıticos nas tabelas estat´ısticas as quais fornecem p-valores correspondendo aos valores das estat´ıstica de teste.

5. Avalie a for¸ca da evidˆencia contra H0.(Quanto menor p-valor, tanto mais evidˆencia

contra a hip´otese nula.) Se neces´ario, decida se esta ´e evidˆencia suficiente para

rejeitar (ou n˜ao rejeitar) a hip´otese nula.

6. Estabele¸ca as conclus˜oes e interpreta¸c˜ao dos resultados.

O p-valor ´e a probabilidade de observar dados t˜ao extremos quanto os obtidos se a hip´otese nula ´e verdadeira. Note as seguintes interpreta¸c˜oes de p-valores:

P ≥ 0.10 N˜ao existe evidˆencia contra H0

P < 0.10 Fraca evidˆencia contra H0

P < 0.05 Evidˆencia significativa . . .

P < 0.01 Evidˆencia altamente significativa . . . P < 0.001 Evidˆencia muito altamente significativa . . .

Esteja ciente da diferen¸ca entre significˆancia estat´ıstica e significˆancia pr´atica. Um efeito pode ser estatisticamente significante mas n˜ao ter qualquer importˆancia pr´atica e vice-versa. Por exemplo, um estudo muito grande pode estimar a diferen¸ca entre a m´edia de peso de plantas como sendo 0.0001 gramas e concluir que a diferen¸ca ´e estat´ısticamente significativa (p < 0.05). Contudo, na pr´atica, esta diferen¸ca ´e neglig´ıvel e provavelmente de pouca importˆancia pr´atica.

(42)

6.3 Teste para uma m´edia

Na Se¸c˜ao 5.1.1 conduzimos, atrav´es de um exemplo, o chamado teste-t para uma ´unica

m´edia. Os passos principais de tal test-t para uma amostra aleat´oria x1, x2, . . . , xnde uma

popula¸c˜ao com m´edia µ s˜ao dados a seguir:

1. Estabele¸ca a hip´otese nula, H0 : µ = µ0, e a hip´otese alternativa H1: µ 6= µ0.

2. Calcule a m´edia amostral ˆµ = ¯x e o desvio padr˜ao amostral s.

3. Calcule o erro padr˜ao, SE= s/√n.

4. Calcule a estat´ıstica de teste t = (ˆµ − µ0)/SE. Este ´e o n´umero de erros padr˜ao que

ˆ

µ dista do valor de hip´otese µ0.

5. Encontre o p-valor da distribui¸c˜ao t, com r = n − 1 graus de liberdade, da tabela usando os valores absolutos da estat´ıstica de teste.

6. Estabele¸ca conclus˜oes e interprete os resultados.

6.4 Teste para uma propor¸c˜ao

Agora suponha que tenhamos um valor hipot´etico p0 para uma propor¸c˜ao. Podemos

realisar um teste de H0 : p = p0 praticamente da mesma forma que o test-t acima. A

dualidade com intervalos de confian¸ca segue exatamente da mesma forma.

Suponha que tenhamos uma amostra aleat´oria de tamanho n de uma popula¸c˜ao de in-teresse onde a verdadeira propor¸c˜ao de membros numa categoria em particular ´e p. A

hip´otese nula ´e H0 : p = p0. Se o n´umero observado na categoria de interesse ´e x, ent˜ao

um teste da hip´otese ´e como segue:

1. Estabele¸ca a hip´otese nula, H0 : p = p0, e a hip´otese alternativa H1 : p 6= p0.

2. Calcule a propor¸c˜ao amostral ˆp = x/n.

3. Calcule o erro padr˜ao, SE=pp(1 − ˆˆ p)/n.

4. Calcule t = (ˆp − p0)/SE, o n´umero de erros padr˜ao que ˆp dista do valor de hip´otese

p0.

5. Encontre o p-valor usando o valor absoluto da estat´ıstica de teste da tabela da distribui¸c˜ao normal (ou equivalentemente da t com r = ∞ graus de liberdade).

Uma regra geral ´e que este teste ´e v´alido quando quando temos ambos nˆp e n(1 − ˆp)

maiores do que digamos 10.

6.4.1 Exemplo

Referindo-se ao exemplo da Se¸c˜ao 5.8, suponha que algu´em tenha sugerido de experiˆencias passadas que 60% das larvas de mosquito no lago deveriam ser da esp´ecie Aedes detritus. Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hip´oteste?

(43)

6.5 Decis˜oes e poder

Ao tomar uma decis˜ao a favor ou contra uma hip´otese existem dois tipos de erros que vocˆe pode cometer. Vocˆe pode rejeitar a hip´otese nula quando de fato ela ´e verdadeira

(erro tipo I) ou vocˆe pode falhar em rejeitar H0 quando de fato ela ´e falsa (erro tipo

II). Existe um balan¸co entre esses dois tipos de erros, no sentido de que ao tentar-se minizar a possibilidade de um tipo, aumenta-se a probabilidade do outro. Frequentemente denotamos as probabilidades destes dois erros como α e β respectivamente.

Decis˜ao

Verdade Aceitar H0 Rejeitar H0

H0 verdadeiro — Erro Tipo I

(1 − α) (α)

H0 falso Erro Tipo II —

β (1 − β)

O poder de um teste ´e a probabilidade de rejeitar a hip´otese nula quando esta ´e de fato falsa. Isto ´e igual a 1 − β. Em geral, quanto maior o tamanho da amostra, maior o

poder do teste. ´E desej´avel decidir sobre um tamanho de amostra conveniente antes de

conduzir um estudo de forma que o resultados do teste de hip´otese ter´a poder suficiente para responder a quest˜ao cient´ıfica de interesse.

6.6 Dimensionamento de amostras

Vimos no Cap´ıtulo 5 e nas se¸c˜oes anteriores deste cap´ıtulo como construir intervalos e testes de hip´oteses para os principais parˆametros populacionais. Em todos os, supusemos dado o n´ıvel de confian¸ca desses intervalos e testes. Evidentemente, o n´ıvel de confian¸ca deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estima¸c˜ao por intervalo e testes. Sendo conveniente, o n´ıvel de confian¸ca pode ser aumentado at´e t˜ao pr´oximo de 100% quanto se queira, mas isso resultar´a em intervalos de amplitude cada vez maiores (e testes com poderes cada vez menores), o que significa perda de precis˜ao

na estima¸c˜ao. ´E claro que seria desej´avel termos intervalos com alto n´ıvel de confian¸ca e

pequena probabilidade de erro e grande precis˜ao. Isso por´em requer uma amostra sufici-entemente grande, pois, para n fixo, confian¸ca e precis˜ao variam em sentidos opostos. Veremos a seguir como determinar o tamanho das amostras necess´arias nos casos de es-tima¸c˜ao da m´edia ou de uma propor¸c˜ao populacional. Vimos na Se¸c˜ao 5.4 que o intervalo de confian¸ca de 95% para a m´edia µ da popula¸c˜ao quando σ ´e conhecido tem semi-amplitude d dada pela express˜ao

d = z√σ n,

onde z = 1.96 para uma confian¸ca de 95%. Ora, o problema ent˜ao resolvido foi, fixados o n´ıvel de confian¸ca (1 − α = 0.95) e n, determinar d. Mas, ´e evidente dessa express˜ao que podemos resolver outro problema. Fixados, d e o n´ıvel de confian¸ca, determinar n, que ´e o problema da determina¸c˜ao do tamanho de amostra necess´ario para se realizar a estima¸c˜ao

(44)

por intervalo com a confian¸ca e a precis˜ao desejadas. Vemos imediatamente que n = µ d2 . Essa ser´a a express˜ao usada se σ for conhecido.

N˜ao conhecendo o desvio-padr˜ao da popula¸c˜ao, dever´ıamos subtitu´ı-lo por sua estimativa s e usar t de Student na express˜ao acima. Ocorre por´em que n˜ao tendo ainda sido retirada a amostra, n˜ao dispomos em geral do valor de s. Se n˜ao conhecemos nem ao menos um

limite superior para σ, a ´unica solu¸c˜ao ser´a colher uma amostra-piloto de n0 elementos

para, com base nela obtermos uma estimativa de s, empregando a seguir a express˜ao n = µt (n0−1,0.05)s d2 .

Se n ≤ n0, a amostra-piloto j´a ter´a sido suficiente para a estima¸c˜ao. Caso contr´ario,

deveremos retirar, ainda, da popula¸c˜ao os elementos necess´arios `a complementa¸c˜ao do tamanho m´ınimo de amostra.

Procedemos de forma an´aloga se desejamos estimar uma propor¸c˜ao populacional com de-terminada confian¸ca e dada precis˜ao. No caso de popula¸c˜ao suposta infinita, da express˜ao

d = z s ˆ p(1 − ˆp) n , podemos obter n = µ z d2 p(1 − p).

O obst´aculo `a determina¸c˜ao do tamanho de amostra por meio da express˜ao acima est´a em desconhecermos p. Essa dificuldade pode ser resolvida atrav´es de uma amostra-piloto, analogamente ao caso descrito para a estima¸c˜ao de µ, ou analisando-se o comportamento do fator p(1 − p) para 0 ≤ p ≤ 1. Vˆe-se da figura a seguir que p(1 − p) ´e a express˜ao de uma par´abola cujo ponto de m´aximo ´e p = 1/2.

0.0 0.2 0.4 0.6 0.8 1.0 0.00 0.05 0.10 0.15 0.20 0.25 p p(1−p)

(45)

Se substituirmos, p(1 − p) por seu valor m´aximo, 1/4, seguramente o tamanho de amostra obtido ser´a suficiente para a estima¸c˜ao de qualquer que seja p. Isso equivale a considerar

n = µ z d2 1 4 = µ z 2d2 .

Evidentemente, usando-se essa express˜ao corre-se o risco de se superdimensionar a amos-tra. Isso ocorrer´a se p for na realidade pr´oximo de 0 ou 1. Se o custo envolvido for elevado e proporcional ao tamanho de amostra, ´e mais prudente a tomada de uma amostra-piloto.

6.6.1 Exemplos

1. Qual o tamanho de amostra necess´ario para se estimar a m´edia de uma popula¸c˜ao infinita cujo desvio-padr˜ao ´e igual a 4, com 98% de confian¸ca e precis˜ao de 0,5? 2. Qual o tamanho de amostra suficiente para estimarmos a propor¸c˜ao da ´area com solo

contaminado que precisa de tratamento, com precis˜ao de 0,02 e 95% de confian¸ca, sabendo que essa propor¸c˜ao seguramente n˜ao ´e superior a 0,2?

(46)

6.7 Exerc´ıcios 5

1. Exerc´ıcios 3, item 2. Teste a hip´otese nula de que essa amostra prov´em de um corpo arenoso cuja m´edia ´e µ = 0, 5mm.

2. A fim de testar a ocorrˆencia de estratifica¸c˜ao gradacional num certo arenito, amostras foram coletadas na base e no topo de 7 estratos desse arenito. Aplicando-se o teste-t verificar se as diferen¸cas entre o tamanho m´edio das part´ıculas da base e do topo s˜ao significativas ou n˜ao.

Estratos base topo d=t-b

1 2,81 3,13 0,32 2 3,95 4,13 0,18 3 3,75 3,88 0,13 4 2,68 2,91 0,23 5 3,25 3,65 0,36 6 3,90 4,20 0,30 7 3,30 3,12 -0,18

3. Foram feitas vinte medidas do tempo total gasto para a precipita¸c˜ao de um sal, em segundos, num dado experimento, obtendo-se:

13 15 12 14 17 15 16 15 14 16

17 14 16 15 15 13 14 15 16 15

Esses dados s˜ao suficientes, pergunta-se, para estimar o tempo m´edio gasto na pre-cipita¸c˜ao com precis˜ao de meio segundo e 95% de confian¸ca? Caso negativo, qual o tamanho da amostra adicional necess´aria?

4. Deseja-se estimar a resitˆencia m´edia de certo tipo de pe¸ca com precis˜ao de 2kg e 95% de confian¸ca. Desconhecendo-se a variabilidade dessa resistˆencia, roperam-se cinco pe¸cas, obtendo-se para elas os seguintes valores de sua resitˆencia (em kg): 50,58,52,49,55. Com base no resultado obtido, determinou-se que deveriam ser rom-pidas mais quinze pe¸cas, a fim de se conseguir o resultado desejado. Qual sua opini˜ao a respeito dessa conclus˜ao?

5. Exerc´ıcios 4, item 1. Realize um teste estat´ıstico para ajud´a-lo na decis˜ao se vocˆe deve ou n˜ao acreditar que a moeda ´e balanceada. Qual a sua conclus˜ao?

6. Suponha que estejamos interessados em estimar a propor¸c˜ao de todos os motoristas que excedem o limite m´aximo de velocidade num trecho da rodovia entre Curitiba-S˜ao Paulo. Qu˜ao grande deve ser a amostra para que estejamos pelo menos 99% confiantes de que o erro de nossa estimativa, a propor¸c˜ao amostral, seja no m´aximo 0,04?

7. Refa¸ca o exerc´ıcio anterior, sabendo que temos boas raz˜oes para acreditar que a propor¸c˜ao que estamos tentando estimar ´e no m´ınimo 0,65.

Referências

Documentos relacionados

Não há materiais diversificados e apropriados para o ensino da leitura e escrita em kaingang, é baixíssimo o percentual de professores indígenas formados atuando

Centro Federal de Educa¸c˜ ao Tecnol´ ogica Celso Suckow da Fonseca – CEFET/RJ Disciplina:

Intervalo de confian¸ca para a m´ edia quando a variˆ ancia populacional ´ e desconhecida.

9. Certa produ¸c˜ ao de pinos met´ alicos ´ e submetida a um processo de cementa¸c˜ ao, no qual uma camada externa de maior resistˆ encia ´ e formada. Perguntou-se para

Para Nietzsche, a superficialidade da consciência, uma vez desmascarada, não abre a via de nenhuma outra fundamentação mais segura. A descoberta de que a consciência, a razão,

Utilize um cabo HDMI para ligar o terminal [HDMI IN] na parte de trás do monitor ao termi- nal HDMI do dispositivo de saída digital..

Artigo 40.º Falta, insuficiência e irregularidade do mandato Artigo 41.º Patrocínio a título de gestão de negócios Artigo 42.º Assistência técnica aos advogados Artigo 43.º

Este impacto do aumento da volatilidade é sempre positivo porque, apesar de ser maior, quer a probabilidade de se verificarem subidas, quer a