• Nenhum resultado encontrado

Estat´ıstica B´asica

N/A
N/A
Protected

Academic year: 2022

Share "Estat´ıstica B´asica"

Copied!
62
0
0

Texto

(1)

Estat´ıstica B´ asica

Silvia Emiko Shimakura & Paulo Justiniano Ribeiro Junior Departamento de Estat´ıstica-UFPR

Email: [email protected]

Resumo Resumo

Este curso apresenta uma introdu¸c˜ao aos m´etodos estat´ısticos para modelagem de dados. Neste curso, o aluno pensar´a em problemas pr´aticos de uma forma quantitativa e ganhar´a um entendimento dos princ´ıpios b´asicos em estat´ıstica. A obten¸c˜ao de um conhecimento s´olido das id´eias b´asicas dar´a ao aluno confian¸ca para abordar m´etodos estat´ısticos mais avan¸cados que podem ser encontrados no futuro.

Conte´ udo

1. Introdu¸c˜ao: Por que Estat´ıstica?

2. Estat´ısticas Descritivas: sum´ario de dados, gr´afico de barras, gr´afico de setores, histograma, ramo-e-folhas, mediana, moda, desvio padr˜ao, amplitude inter-quartis,...

3. Popula¸coes e amostras: usando amostras para aprender sobre a popula¸c˜ao 4. Intervalos de confian¸ca: estimando a m´edia populacional a partir de uma amostra 5. Testes de hip´oteses: id´eia b´asica e testes para uma amostra

6. Compara¸c˜ao de dois grupos: As mensura¸c˜oes num grupo tendem a ser maiores em m´edia do que em outro?

7. Correla¸c˜ao: verificando se os valores de duas quantidades tendem a ser rela- cionadas

8. Regress˜ao: descrevendo como o comportamento de uma quantidade muda com o valor da outra

(2)

1 Introdu¸c˜ ao

1.1 O que ´ e Estat´ıstica?

Primeiro deve-se estabelecer o que se deseja dizer com “estat´ıstica”. Ela tem pelo menos trˆes significados:

1. cole¸c˜ao de informa¸c˜oes num´ericas oudados,

2. medidas resultantes de um conjunto de dados, como por exemplo m´edias, 3. m´etodos usados na coleta e interpreta¸c˜ao de dados.

Qual ´e o papel da estat´ıstica na ciˆencia?

Na ciˆencia, s˜ao realizados estudos experimentais ou observacionais, levando `a cole¸c˜ao de dadosnum´ericos.

O prop´osito da investiga¸c˜ao ´e responder umaquest˜ao cient´ıfica.

O padr˜ao de varia¸c˜aonos dados faz com que a resposta n˜ao seja ´obvia.

Em geral, a disciplina deestat´ısticarefere-se a m´etodos para coleta e descri¸c˜ao dos dados, e ent˜ao a verifica¸c˜ao da for¸ca da evidˆencia nos dados pr´o ou contra as id´eias cient´ıficas. A presen¸ca de uma varia¸c˜ao n˜ao previs´ıvel nos dados faz disso uma tarefa pouco trivial.

1.2 Varia¸c˜ ao Amostral

Alguns exemplos em que a varia¸c˜ao est´a presente nos dados podem ser encontrados em Landim (1997).

(3)

2 Estat´ıstica Descritiva

2.1 Tipos de dado

A interpreta¸c˜ao das listas de n´umeros a olho ´e muito dif´ıcil. Ao inv´es disso, dever´ıamos produzir um resumo verbalounum´ericoe/ou usarm´etodos gr´aficospara descr- ever os pontos principais dos dados.

O m´etodo mais apropriado depender´a da natureza dos dados, e aqui podemos distinguir dois tipos principais:

1. Dados qualitativos ou categ´oricos que podem ser:

(a) nominais, por exemplo

sexo: masculino, feminino

classifica¸c˜ao de f´osseis

(b) ordinais, i.e. categorias ordenadas, tais como

salinidade: baixa, m´edia, alta

abundˆancia: dominante, abundante, frequente, ocasional, raro 2. Dados quantitativos ou num´ericosque podem ser:

(a) discretos, i.e. contagens ou n´umero inteiros, por exemplo

n´umero de ovos postos pela tartaruga marinha

n´umero de ataques de asma no ano passado

(b) cont´ınuos, i.e. medidas numa escala cont´ınua, tais como

volume, ´area, peso, massa

velocidade de corrente

As distin¸c˜oes s˜ao menos r´ıgidas do que a descri¸c˜ao acima insinua. Por exemplo, em geral tratar´ıamos idade como uma vari´avel cont´ınua, mas se a idade for registrada pelo ano mais pr´oximo, podemos trata-la como discreta, e se separarmos a amostra em

“crian¸cas”, “adultos jovens”, “idade m´edia”, “velhos”, por exemplo, ent˜ao temos faixa et´aria como uma vari´avel ordenada categ´orica. No entanto, ´e recomendado em geral manter os dados em sua forma original, categorizando-os somente para prop´ositos de apresenta¸c˜ao.

(4)

2.2 Dados qualitativos

Para sumarizar dados qualitativos numericamente, utiliza-secontagens, propor¸c˜oes, percentagens, taxas por 1000, taxas por 1.000.000 etc., dependendo da escala apropriada. Por exemplo, se encontrarmos que 70 de 140 estudantes de geologia s˜ao homens, poder´ıamos relatar a taxa como uma propor¸c˜ao (0,5) ou, provavelmente ainda melhor, como um percentual (50%). Se encontrarmos que 7 de uma amostra de 5000 pessoas s˜ao portadores de uma doen¸ca rara poder´ıamos expressar isto como uma pro- por¸c˜ao observada (0,0014) ou percentual (0,14%), mas melhor seria 1,4 casos por mil.

2.2.1 Tabulando dados

Frequentemente o primeiro passo da descri¸c˜ao de dados ´e criar uma tabela de frequˆencia.

Por exemplo, as esp´ecies de “woodlice” caindo numa armadilha foram:

Species tally ni ni/N pi Percentage

Oniscus ||||||||||||||| 12 12/27 0.444 44.4%

Porcellio |||||||| 8 8/27 0.296 29.6%

Philoscia ||||| 5 5/27 0.185 18.5%

Armadilidium || 2 2/27 0.074 7.4%

N = 27 Σpi= 1

Num relat´orio, a segunda coluna n˜ao seria mostrada, e os dados seriam sumarizados num formato mais simples como mostrado abaixo. Se o maioria dos dados caem em poucas categorias, ent˜ao ´e conveniente colapsar algumas das categorias com somente uma ou duas observa¸c˜oes em outra categoria chamada “outros”.

Table showing the species of 27 woodlice that fell in a pit-fall trap:

Species Frequency Percentage

Oniscus 12 44.4%

Porcellio 8 29.6%

Philoscia 5 18.5%

Armadilidium 2 7.4%

Tabelas simples como esta s˜ao na maioria das vezes suficientes para descrever dados qualitativos especialmente quando existem somente duas ou trˆes categorias.

(5)

2.2.2 Resumindo numericamente

Considere o seguinte conjunto de dados que mostra os escores de abundˆancia m´edios DAFORde ocorrˆencia deNardus strictaem 100 ´areas investigadas em Exmoor.

Dominante 8 Abundante 33 Frequente 32 Ocasional 17

Raro 10

A moda de um conjunto de dados categ´oricos ´e a categoria que tem o maior percentual de dados. Ela deve ser usada cuidadosamente como uma medida resumo global porque ´e muito dependente da forma como os dados s˜ao categorizados. Para os dados de “woodlice” a moda ´eOniscus. Para os dados acima, a categoria modal ´e

“Abundante”, mas por muito pouco.

A mediana, bem como a moda, podem ser calculadas paradados ordenados.

Este ´e valor do “meio”, mais comumente usado para dados quantitativos. A mediana n˜ao faz sentido para os dados “woodlice”. Para os dados de abundˆancia, a categoria mediana ´e “Frequente”, porque 50% dos dados est˜ao em categorias superiores, e menos do que 50% est˜ao em categorias inferiores. A mediana ´e maisrobustado que a moda pois ´e menos sens´ıvel `a categoriza¸c˜ao adotada.

2.2.3 Gr´aficos de Barras

Dados qualitativos, particularmente quando as categorias s˜ao ordenadas, s˜ao usual- mente bem ilustrados num simplesgr´afico de barrasonde a altura da barra ´e igual

`a frequˆencia.

Rare Occasional Frequent Abundant Dominant

0102030

Frequency

(6)

2.2.4 Gr´afico de setores

Gr´afico de setorestamb´em podem ser ´uteis para apresenta¸c˜ao de dados categ´oricos ordenados. Os setores do gr´afico s˜ao desenhados de tal forma que eles tenham ´area proporcional `a frequˆencia. Ent˜ao para os dados “woodlice”, os ˆangulos seriam 0.444× 360 = 160 paraOniscus, etc.

Oniscus

Porcellio Philoscia

Armadilidium

2.3 Dados quantitativos

2.3.1 Histograma

De longe o m´etodo mais comum de apresenta¸c˜ao de dados num´ericos ´e ohistograma, relacionado com o gr´afico de barras para dados categ´oricos. As ´areas dos retˆangulos resultantes devem ser proporcionais `a frequˆencia.

Algumas vezes ´e conveniente agregar classes de frequˆencia nos extremos da dis- tribui¸c˜ao de forma que os intervalos tenham larguras diferentes. Cuidado ao fazer isso - um intervalo que ´e duas vezes a largura de um outro deve tem altura igual

`a metada de sua frequˆencia (para preservar a ´area contida dentro do intervalo) Da mesma forma um intervalo que ´e trˆes vezes a largura dos outros deve ter um ter¸co da altura de sua frequˆencia observada.

Exemplo. 150 peixes mortos foram encontrados v´ıtimas de contamin¸c˜ao do rio e seus comprimentos foram medidos em mil´ımetros. As medidas foram expressas na forma de tabela de frequˆencia.

Comprimento do peixe (mm) Frequˆencia

100-109 7

110-119 16

120-129 19

130-139 31

140-149 41

150-159 23

160-169 10

(7)

100 120 140 160 180

010203040

Fish lengths (mm)

Frequency

O histograma constru´ıdo desses dados ´e mostrado na Figura.

Gr´afico de Ramos-e-Folhas

Um m´etodo gr´afico que merece ser mais amplamente utilizado quando a quantidade de dados n˜ao ´e muito grande ´e o gr´afico deramos-e-folhascomo ilustrado a seguir.

Exemplo. Um estudo geoqu´ımico realizado utilizando amostras compostas de sedimentos de corrente com granulometria de 100-150meshe profundidade de 40cm, provenientes de riachos correndo sobre granulitos, revelou os seguintes resultados em ppm de Cr

10.6 14.1 13.7 15.2 15.4 12.5 12.9 14.3 13.0 12.6 12.0 14.0 10.0 18.2 11.5 9.4 16.5 13.7 14.7 16.6 11.4 18.4 17.4 11.1 15.8 17.0 13.6 16.6 11.8 15.8 13.5

Uma vez que a escala tenha sido determinada, a qual define os “ramos” `a esquerda da linha veritcal, podemos facilmente escrever os dados no gr´afico de ramos-e-folhas como no diagrama esquerdo; como um refinamento podemos ent˜ao ordenar as “folhas”

no diagrama `a direita:

9 4

10 6 0

11 5 4 1 8

12 5 9 6 0

13 7 0 7 6 5

14 1 3 0 7

15 2 4 8 8

9 4

10 0 6

11 1 4 5 8

12 0 5 6 9

13 0 5 6 7 7

14 0 1 3 7

15 2 4 8 8

(8)

folhas devem ter um ´unico d´ıgito). Nota: ´e importante escrever as folhas em colunas igualmente espa¸cadas, caso contr´ario pode resultar uma figura distorcida.

O gr´afico de ramos-e-folhas fornece um resumo visual dos dados sem que haja de fato a perda de qualquer informa¸c˜ao.

Compare-o com um histograma para os mesmos dados:

8 10 12 14 16 18 20

012345

Concentracao de Cr (ppm)

Frequency

(9)

2.3.2 Resumindo numericamente

Para resumir numericamente dados quantitativos o objetivo ´e escolher medidas apro- priadas de loca¸c˜ao (“qual o tamanho dos n´umeros involvidos?”) e de dispers˜ao (“quanta varia¸c˜ao existe?”) para os tipos de dados.

Existem trˆes escolhas principais para a medida de loca¸c˜ao, a chamada “3 Ms”, as quais est˜ao ligadas a certas medidas de dispers˜ao como segue:

M ‘Dispers˜ao’

m´edia(o valor ‘m´edio’) desvio padr˜ao mediana(o valor do ‘meio’) IQR

moda (o valor ‘mais comum’) propor¸c˜ao 2.3.3 M´edia, variˆancia e desvio padr˜ao

Para resumir dados quantitativos aproximadamente sim´etricos, ´e usual calcular a m´ediaaritm´etica como uma medida de loca¸c˜ao. Se x1, x2, . . . , xn s˜ao os valores dos dados, ent˜ao podemos escrever a m´edia como

x= x1+x2+. . .+xn

n =

Pn

i=1xi

n ,

onde ‘Pn

i=1xi=x1+x2+. . .+xn’ e frequentemente ´e simplificada paraP xi ou at´e mesmoP

xque significa ‘adicione todos os valores dex’.

Avariˆancia´e definida como o ‘desvio quadr´atico m´edio da m´edia’ e ´e calculada de uma amostra de dados como

s2= Pn

i=1(xi−x)2

n−1 =

Pn

i=1(x2i)−nx2 (n1) .

A segunda vers˜ao ´e mais f´acil de ser calculada, embora muitas calculadoras tˆem fun¸c˜oes prontas para o c´alculo de variˆancias, e ´e raro ter que realisar todos os passos manualmente. Comumente as calculadoras fornecer˜ao a raiz quadrada da variˆancia, o desvio padr˜ao, i.e.

s=

variˆancia = s2 a qual ´e medida nas mesmas unidades dos dados originais.

Uma inform¸c˜ao ´util ´e que para qualquer conjunto de dados, pelo menos 75% deles fica dentro de uma distˆancia de 2 desvio padr˜ao da m´edia, i.e. entre ¯x−2se ¯x+ 2s.

Exemplo. Sete homens foram pesados, e os resultados em kg foram:

57.0, 62.9, 63.5, 64.1, 66.1, 67.1, 73.6.

Am´edia´e 454.3/7 = 64.9 kg,

avariˆancia´e (29635.05454.32/7)/6 = 25.16 kg2 e odesvio padr˜ao´e

25.16 = 5.02 kg.

(10)

definidos como os valores abaixo dos quais est˜ao um quarto e trˆes quartos, respec- tivamente, dos dados. Estes trˆes valores s˜ao frequentemente usados para resumir os dados juntamente com o m´ınimo e o m´aximo. Eles s˜ao obtidos ordenando os dados do menor para o maior, e ent˜ao conta-se o n´umero apropriado de observa¸c˜oes: ou seja

´e n+14 , n+12 e 3(n+1)4 para o quartil inferior, mediana e quartil superior, respectiva- mente. Para um n´umero par de observa¸c˜oes, a mediana ´e a m´edia dos valores do meio (e analogamente para os quartis inferior e superior).

A medidade de dispers˜ao ´e aamplitude inter-quartis, IQR = Q3Q1, i.e. ´e a diferen¸ca entre o quartil superior e o inferior.

Exemplo. O n´umero de crian¸cas em 19 fam´ılias foi

0, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 7, 8, 10 Amediana´e o (19+1) / 2 = 10ovalor, i.e. 3 crian¸cas.

O quartilinferioresuperiors˜ao os valores 5oe 15o, i.e. 2 e 6 crian¸cas, portanto amplitude inter-quartil ´e de 4 crian¸cas. Note que 50% dos dados est˜ao entre os quartis inferior e superior.

(11)

2.3.5 Box-and-Whisker Plots

Box-and-Whisker plots ou simplesmente box-plots s˜ao simples representa¸c˜oes dia- gram´aticas dos cinco n´umeros sum´arios: (m´ınimo, quartil inferior, mediana, quartil superior, m´aximo). Um box-plot para os dados geoqu´ımicos fica como mostrado a seguir.

10 12 14 16 18

2.3.6 A moda

Nem todos os conjuntos de dados s˜ao suficientemente balanceados para o c´alculo da m´edia ou mediana. Algumas vezes, especialmente para dados de contagem, um ´unico valor domina a amostra. A medida de loca¸c˜ao apropriada ´e ent˜ao a moda, a qual ´e o valor que ocorre com maior frequˆencia. A propor¸c˜ao da amostra a qual toma este valor modal deveria ser utilizada no lugar de uma medida formal de dispers˜ao.

Algumas vezes, podemos distinguir claramente ‘picos’ na frequˆencia dos valores registrados. Neste caso (chamado bimodal) dever´ıamos apresentar ambas as local- iza¸c˜oes. Dados deste tipo s˜ao particularmente dif´ıceis de resumir (e analisar).

Exemplo. Dez pessoas registraram o n´umero de copos de cerveja que eles tomaram num determinado s´abado:

0, 0, 0, 0, 0, 1, 2, 3, 3, 6

A moda ´e 0 copos de cerveja, a qual foi obtida pela metade da amostra. Poderiamos adicionar mais informa¸c˜ao separando a amostra e dizendo que daqueles que tomaram cerveja a mediana foi de 3 copos.

(12)

2.4 Dados m´ ultiplos

Os resultados de um estudo tipicamente envolver˜ao mais do que uma ´unica amostra de dados como discutido at´e aqui. Representa¸c˜oes gr´aficas s˜ao ´uteis para comparar grupos de dados ou para verificar se exitem rela¸c˜oes entre eles. Existem muitas possibilidades, mas a mais adequada depender´a das peculiaridades de cada conjunto de dados.

Al´em dos exemplos abaixo, podemos criar combina¸c˜oes de m´etodos j´a discutidos.

Por exemplo, se medirmos as alturas e pesos de uma amostra de pessoas, podemos produzir box-plots de altura lado a lado para homens e mulheres, ou gr´aficos ramo-e- folhas lado a lado (com as alturas dos homens `a esquerda do ramo, e as alturas das mulheres `a direita), ou um histograma acima do outro (com a mesma escala no eixo x de forma que eles possam ser facilmente comparados). Para um n´umero diferente de grupos, uma s´erie de box-plots verticais funciona bem como um s´ımples resumo dos dados.

Para combina¸c˜oes de dados categ´oricos, uma s´erie de gr´aficos de setores podem ser produzidos, i.e. dois gr´aficos de setores, um para homens e um para mulheres.

2.4.1 Gr´aficos de pontos

Para avaliar se existe uma rela¸c˜ao entre duas vari´aveis cont´ınuas, podemos produzir umgr´afico de pontos. ´E importante que o eixo x fa¸ca sentido. Em geral faz pouco sentido unir os pontos, exceto onde o eixo x representa tempo (veja abaixo). S´ımbolos diferentes podem ser usados para diferentes grupos para adicionar uma nova dimens˜ao ao gr´afico. O gr´afico abaixo mostra alturas e pesos de estudantes do sexo masculino e feminino.

M M

M M

M

M

M

M

M M

M M

M

M

M M

M

M

M

M

Height (cm)

Weight (kg)

140 150 160 170 180 190 200

405060708090

F F

FF F

F F

F F

F F

F F F

F F

F

Para mais do que duas vari´aveis, pode-se produzir gr´aficos entre todos os pares

(13)

Abaixo mostramos as temperaturas di´arias m´edias em Philadelphia, USA nos dois primeiros meses de 1980.

• •

• •

• •

• •• •• • •

• •• • • • •

• • •

• •

• •

• •

Day

Average temperature

0 10 20 30 40 50 60

-10-505

(14)

2.4.3 Ladder plot

O ladder plot n˜ao ´e um gr´afico do tipo padr˜ao mas pode ser ´util para visualizar dados pareados. Considere o seguinte exemplo.

Um ornitologista deseja saber se um determinado local ´e usado por p´assaros mi- grat´orios de uma certa ra¸ca para engorda antes de migrar. Ele captura alguns p´assaros em Agosto e pesa-os, ent˜ao em Setembro ele tenta re-capturar os mesmos p´assaros e faz novas medidas. Ele re-capturou 10 dos p´assaros duas vezes, ambos em Agosto e Setembro. A tabela abaixo mostra as massas desses p´assaros.

Mass in August (g) Mass in September (g)

10.3 12.2

11.4 12.1

10.9 13.1

12.0 11.9

10.0 12.0

11.9 12.9

12.2 11.4

12.3 12.1

11.7 13.5

12.0 12.3

O ladder plot destes dados fica como segue:

Mass (g) of bird 10111213

August September

• •

• •

• •

E muito mais f´acil ver do gr´afico do que da tabela que os p´assaros tendem a engor-´ dar, e que aqueles que n˜ao engordaram tenderam a ser os maiores que provavelmente

(15)

2.5 Exerc´ıcios 1

1. Descreva de forma concisa os seguintes dados usando suas palavras e algumas estat´ısticas descritivas, apontando caracter´ısticas principais observadas.

(a) As notas (de um total de 100 e ordenadas por tamanho) de 20 estudantes de estat´ıstica no primeiro exame do semestre:

30 35 37 40 40 49 51 54 54 55

57 58 60 60 62 62 65 67 74 89

(b) O n´umero de faltas de 20 trabalhadores num ano (ordenados por tamanho):

0 0 0 0 0 0 0 1 1 1

2 2 3 3 4 5 5 5 8 45

(c) O n´umero de exemplares de um jornal mensal em particular lidos por 20 pessoas num ano:

0 1 11 0 0 0 2 12 0 0

12 1 0 0 0 0 12 0 11 0

2. Produza um gr´afico ramos-e-folhas para apresenta¸c˜ao dos dados de altura (em metros) de 20 mulheres sendo estudadas para uma certa condi¸c˜ao m´edica.

1.52 1.60 1.57 1.52 1.60 1.75 1.73 1.63 1.55 1.63 1.65 1.55 1.65 1.60 1.68 2.50 1.52 1.65 1.60 1.65

3. Os dados a seguir fornecem a concentra¸c˜ao de um determinado poluente (ppm) em 8 pontos de um afluente medidos antes e uma hora depois de um acidente ambiental:

Before After 4.67 5.44 4.97 6.11 5.11 6.49 5.17 6.61 5.33 6.67 6.22 6.67 6.50 6.78 7.00 7.89

Fa¸ca um gr´afico destes dados, e use o gr´afico para ajudar a avaliar se o acidente provocou um aumento significativo nos n´ıveis do poluente no afluente.

4. A tabela abaixo fornece o n´umero de grˆanulos de arenito por cm3em 20 amostras tomadas de uma certa localidade (A) e 20 amostras tomadas de uma outra localidade (B).

(16)

A B

171 397 116 375

431 795 375 440

288 257 151 192

1283 902 752 503

554 1621 979 1252

295 1004 208 688

568 1378 426 771

958 435 675 377

2415 1104 410 700

1212 396 736 315

(a) Calcule as m´edias e desvios-padr˜ao desses duas amostras.

(b) Fa¸ca histogramas dos dois conjuntos de dados, e compare-os.

(c) Qual ´e o m´ınimo, m´aximo, mediana, quartil inferior e quartil superior de cada grupo?

(d) Usando sua resposta ao item (c), construa boxplots para os dois conjuntos de dados - um diretamento acime do outro, ou lado a lado para facilitar a compara¸c˜ao.

(e) Para cada grupo, o dado ´e aproximadamente sim´etrico ou assim´etrico? Se assim´etrico, em que dire¸c˜ao?

(f) Vocˆe acha que existe uma diferen¸ca real entre os n´umeros de grˆanulos de arenito nas duas localidades, ou vocˆe acha que as diferen¸cas observadas poderiam ter simplesmente ocorrido como uma consequˆencia dos grupos consistirem de somente 20 amostras cada?

(g) Descreva as principais caracter´ısticas dos dados em uma ou duas senten¸cas.

5. O percentual de a¸c´ucar e sal em 9 cereais matinais mais populares foram medidos, com os seguintes resultados:

Cereal a¸c´ucar sal

1 19 8

2 36 5

3 3 10

4 8 4

5 26 6

6 16 6

7 8 9

8 10 3

9 54 3

(a) Fa¸ca um gr´afico desses dados para investigar a rela¸c˜ao entre o conte´udo de a¸c´ucar e sal nos cereais matinais.

(b) Comente brevemente qualquer padr˜ao observado nos dados.

(17)

3 Popula¸c˜ oes e amostras

3.1 Inferˆ encia estat´ıstica

Inferˆencia estat´ıstica´e o processo pelo qual estat´ısticos tiram conclus˜oes acerca da popula¸c˜aousando informa¸c˜ao de umaamostra.

Vocˆe pode estar familiar com o termo ‘popula¸c˜ao’ num sentido biol´ogico/geol´ogico.

Em estat´ıstica, o termo n˜ao se refere necessariamente a pessoas, plantas, animais, etc. Ele poderia tamb´em se referir, por exemplo, a f´osseis, rochas e sedimentos num determinado local, etc.

Apopula¸c˜aose refere a todos os casos ou situa¸c˜oes as quais o pesquisador quer fazer inferˆencias ou estimativas. Diferentes pesquisadores podem querer fazer in- ferˆencias acerca da concentra¸c˜ao de poluentes num determinado len¸col fre´atico; predi- zer a quantidade de petr´oleo num po¸co a ser perfurado e assim por diante.

Note que o investigador n˜ao est´a interessado em todos os aspectos da popula¸c˜ao.

O pesquisador pode n˜ao estar interessado em estudar a concentra¸c˜ao de todos os tipos de poluentes, somente alguns poluentes mais importantes para seu estudo.

Umaamostra´e um subconjunto da popula¸c˜ao usado para obter informa¸c˜ao acerca do todo.

Mas exatamente por quˆe tomamos uma amostra? Por quˆe n˜ao usamos a popula¸c˜ao toda?

custo alto para obter informa¸c˜ao da popula¸c˜ao toda

tempo muito longo para obter informa¸c˜ao da popula¸c˜ao toda

algumas vezes imposs´ıvel, por exemplo, estudo de polui¸c˜ao atmosf´erica

algumas vezes logicamente imposs´ıvel, por exemplo, em ensaios destrutivos.

(18)

Caracter´ısticas de uma popula¸c˜ao que diferem de um indiv´ıduo para outro e as quais temos interesse em estudar s˜ao chamadas vari´aveis. Exemplos s˜ao compri- mento, massa, idade, temperatura, n´umero de ocorrˆencias, etc. Cada unidade (mem- bro) da popula¸c˜ao que ´e escolhido como parte de uma amostra fornece uma medida de uma ou mais vari´aveis, chamadasobserva¸c˜oes.

3.2 Princ´ıpios de estima¸c˜ ao

Utilizamos estimativas de uma amostra como nosso “melhor chute” para os verdadeiros valores populacionais. Exemplos s˜ao a m´edia amostral, o desvio padr˜ao amostral, a mediana amostral, os quais estimam a verdadeira m´edia, desvio padr˜ao e mediana da popula¸c˜ao (que s˜ao desconhecidos). Os verdadeiros (desconhecidos) valores popula- cionais s˜ao chamados parˆametros.

Note que estat´ısticas s˜ao usualmente representadas por letras Romanas, (por ex- emplo, ¯x para a m´edia amostral, s para o desvio padr˜ao amostral), enquanto que parˆametros s˜ao usualmente representados por letras Gregas (por exemplo, µ para a m´edia populacional,σpara o desvio padr˜ao populacional).

E claro que `a medida que a amostra aumenta, mais informa¸c˜ao n´os teremos acerca´ da popula¸c˜ao de interesse, e portanto mais precisa ser˜ao as estimativas dos parˆametros de interesse.

(19)

3.3 Obtendo uma amostra

Obtemos uma amostra para fazer inferˆencias de uma popula¸c˜ao. Nossas inferˆencias s˜ao v´alidas somente se a amostra ´e representativa da popula¸c˜ao. Na pr´atica n˜ao existe forma de garantir isto sem ter informa¸c˜ao da popula¸c˜ao inteira para comparar com a amostra. E em tais circunstˆancias n˜ao haveria necessidade de amostragem!

Ao inv´es disso, podemos assegurar que n˜ao existem v´ıcios sistem´aticos em nossa amostra atrav´es de uma sele¸c˜ao aleat´oria dos membros da popula¸c˜ao. Umaamostra aleat´oria independente´e uma amostra selecionada de tal forma que

1. todos os membros da popula¸c˜ao tˆem a mesma chance de serem selecionados;

2. cada combina¸c˜ao poss´ıvel de um dado n´umero de membros tem a mesma chance de ser selecionada.

Em princ´ıpio, a melhor forma de obter uma amostra aleat´oria de tamanhon´e ter uma lista de todos os membros da popula¸c˜ao, dar a todos um n´umero digamos de 1 a N, e ent˜ao escolher aleatoriamente nn´umeros de 1 aN para definir a amostra. ´E claro que na pr´atica isto n˜ao ´e exequ´ıvel, especialmente quando a popula¸c˜ao ´e infinita.

Na maioria dos casos ´e dif´ıcil obter amostras aleat´orias. Considere o seguinte diagrama que mostra a ‘popula¸c˜ao’ de circulos. Pense neles como se fossem grˆanulos de tamanhos diferentes. O diˆametro m´edio destes circulos ´e mm.

Suponha que selecionemos uma amostra de 5 destes c´ırculos jogando um l´apis sobre o papel repetidamente at´e que tenhamos atingido 5 circulos. Qual ´e o diˆametro m´edio de nossos 5 circulos? O valor est´a perto de mm?

(20)

No exemplo acima, o esquema amostral causou um v´ıcio. Um v´ıcio similar seria obtido por exemplo na amostragem de um particular tipo de animal – pode ser que os animais que se consegue capturar e medir s˜ao aqueles que n˜ao podem correr t˜ao r´apido, ou ao usar uma armadinha, vocˆe pode amostrar somente os animais mais famintos, etc.

Sempre que uma amostra ´e obtida, o processo de amostragem deve estar bem documentado de tal forma que quais inferˆencias retiradas acerca da popula¸c˜ao pode avaliadas `a luz da estrat´egia amostral.

(21)

4 Distribui¸c˜ oes te´ oricas de frequˆ encias

Como visto na Se¸c˜ao 2, as distribui¸c˜oes dos dados podem ter uma variedade de formas, incluindo formas sim´etricas e n˜ao sim´etricas. Introduziremos aqui alguns dos modelos matem´aticos mais comumente usados para tais dados.

4.1 A distribui¸c˜ ao Normal

Adistribui¸c˜ao Normal´e a mais familiar das distribui¸c˜oes de probabilidade e tamb´em uma das mais importantes em estat´ıstica. Esta distribui¸c˜ao tem uma forma de sino.

x

f(x)

-4 -2 0 2 4

0.00.10.20.30.4

A equa¸c˜ao da curva Normal ´e especificada usando 2 parˆametros: a m´edia pop- ulacional µ, e o desvio padr˜ao populacional σ, ou equivalentemente a variˆancia populacionalσ2. Denotamos N(µ, σ2) `a curva Normal com m´ediaµe variˆanciaσ2. A m´edia refere-se ao centro da distribui¸c˜ao e o desvio padr˜ao ao espalhamento de curva.

A distribui¸c˜ao normal ´e sim´etrica em torno da m´edia o que implica que e m´edia, a mediana e a moda s˜ao todas coincidentes. Para referˆencia, a equa¸c˜ao da curva ´e

f(x) = 1

p(2πσ2)exp

½

(x−µ)22

¾

. (1)

Felizmente, vocˆe n˜ao tem que memorizar esta equa¸c˜ao. O importante ´e que vocˆe entenda como a curva ´e afetada pelos valores num´ericos de µeσ. isto ´e mostrado no diagrama abaixo.

(22)

x

f(x)

0 5 10

0.00.20.40.60.8

N(0,1) N(3,1)

N(6,.25)

N(6,4)

Range Proportion

µ±1σ 68.3%

µ±2σ 95.5%

µ±3σ 99.7%

Este resultado ´e usado da seguinte maneira. Suponha que os comprimentos de um particular tipo de peixe podem ser descritos por uma distribui¸c˜ao normal, com m´edia 140mm e desvio padr˜ao 15mm. Podemos calcular a propor¸c˜ao dos peixes que tˆem comprimentos entre 110 e 170mm, por exemplo, como a propor¸c˜ao da ´area sob a curva entre 110 e 170mm.

Ent˜ao em nosso exemplo, cerca de 95% dos peixes tem comprimentos entre 110mm e 170mm.

Na pr´atica desejamos calcular probabilidades para diferentes valores deµeσ. Para isso, a vari´avelXcuja distribui¸c˜ao ´eN(µ, σ2) ´e transformada numa forma padronizada Z com distribui¸c˜ao N(0,1) (distribui¸c˜ao normal padr˜ao) pois tal distribui¸c˜ao ´e tabelada. A quantidade Z´e dada por

Z =X−µ

σ (2)

Exemplo: A concentra¸c˜ao de um poluente em ´agua liberada por uma f´abrica tem distribui¸c˜ao N(8,1.5). Qual a chance, de que num dado dia, a concentra¸c˜ao do poluente exceda o limite regulat´orio de 10 ppm?

A solu¸c˜ao do problema resume-se em determinar a propor¸c˜ao da distribui¸c˜ao que est´a acima de 10 ppm, ieP(X >10). Usando a estat´ıstica z temos:

P(X >10) =P(Z > 108

) =P(Z >1.33) = 1−P(Z1.33) = 0.09 (3)

(23)

4.2 A distribui¸c˜ ao Binomial

Suponha que n experimentos independentes, ou ensaios, s˜ao executados, onde n ´e um n´umero fixo, e que cada experimento resulta num “sucesso” com proabilidadepe numa “falha” com probabilidade 1−p. O n´umero total de sucessos,X, ´e uma vari´avel aleat´oria com parˆametros nep.

Por exemplo, uma moeda ´e lan¸cada 10 vezes e o n´umero total de caras ´e contado (aqui “cara” ´e um sucesso).

A probabilidade queX=k, denotada porP(k), pode ser encontrada como:

P(X =k) = P(k) = n!

k!(n−k)!pk(1−p)n−k. (4) Am´ediade um vari´avel aleat´oria Binomial ´enpe avariˆancia´enp(1−p).

Considere o seguinte exemplo. Suponha que num pedigree humano envolvendo albinismo (o qual ´e recessivo), n´os encontremos um casamento no qual sabe-se que ambos os parceiros s˜ao heterozigotos para o gene albino. De acordo com a teoria Mendeliana, a probabilidade de que um filho desse casal seja albino ´e um quarto.

(Ent˜ao a probabilidade de n˜ao ser albino ´e 34.)

Agora considere o mesmo casal com 2 crian¸cas. A chance de que ambas sejam albinas ´e (14)2 = 161 = 0.0625. A desma forma, a chance de ambas serem normais ´e (34)2 = 169 = 0.5625. Portanto, a probabilidade de que somente uma seja um albina deve ser 1161 169 = 166 = 38 = 0.375. Alternativamente, poderiamos ter usado a formula acima comn= 2,p= 14, and k= 1.

Se agora considerarmos a fam´ılia comn= 5 crian¸cas, as probabilidades de existam k= 0,1,2, . . . ,5 crian¸cas albinas, onde a probabilidade de albinismo ´ep= 14, s˜ao dadas por

P(k) = 5!

k!(5−k)!

µ1 4

kµ 3 4

5−k

(5) as quais ficam como segue.

0 1 2 3 4 5

0.00.10.20.30.4

(24)

4.3 A distribui¸c˜ ao Poisson

Uma outra distribui¸c˜ao comum ´e a distribui¸c˜ao Poisson, e ´e frequentemente us- ada para modelar dados de contagem, por exemplo, para descrever o n´umero de nmet´oides encontrados em amostras de solo, o n´umero di´ario de novos casos de cˆancer de mama, ou o n´umero de c´elulas contadas usando um hemocitrˆometro. O histograma abaixo mostra o n´umero de organismos encontrados em cada um de 400 quadrados pequenos.

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

020406080

A distribui¸c˜ao Poisson tem um parˆametro, λ, e a probabilidade de obter exata- mente xindiv´ıduos ´e dada por

P(x) = λxe−λ

x! . (6)

Quando λ= 4.68, por exemplo, a distribui¸c˜ao fica como segue.

0.050.100.15

(25)

4.4 Exerc´ıcios 2

1. Considere uma distribui¸c˜ao normal com m´edia 10 e desvio padr˜ao 3.

(a) Desenhe um esbo¸co desta distribui¸c˜ao.

(b) Qual ´e a propor¸c˜ao da ´area sob a curva entre 7 e 13?

2. Usinas nucleares que utilizam ´agua para refrigera¸c˜ao de seus condensadores al- gumas vezes liberam ´agua quente em rios, lagos ou oceanos. Sabe-se que a ´agua quente acima de certa temperatura tem um efeito indesejado sobre plantas e animais que vivem nesses ambientes. Suponha que a alta temperatura liberada por uma certa usina nuclear tem uma distribui¸c˜ao Normal com m´edia 5C e um desvio padr˜ao de 0.5C.

(a) Fa¸ca um esbo¸co da distribui¸c˜ao.

(b) Qual o percentual de dias nos quais o aumento da temperatura ´e maior do que 5.5C?

3. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma m´edia de 72.9 batidas por minuto (bpm) e um desvio padr˜ao de 11.0 bpm foram obtidos.

Um histograma dos dados mostra uma clara forma normal. Dˆe uma amplitude de referˆencia de 95% para pulsos em repouso de pessoas sadias com base nesses dados.

4. Vocˆe leva se cachorro o veterin´ario e descobre atrav´es de um exame de ultra- sonografia que ela est´a gr´avida com uma ninhada de 8 filhotes.

(a) Qual ´e a probabilidade de que exatamente 3 dos filhotes sejam fˆemeas?

(b) Qual ´e a probabilidade de que existam um n´umero igual de machos e fˆemeas?

(c) Qual ´e a probabilidade de que existam mais machos do fˆemeas?

5. Um investigador est´a interessado no n´umero de ovos depositados por uma esp´ecie de p´assaro. Na primavera, ele procura e acha 80 ninhos. O n´umero m´edio de ovos por ninho foi 3.8 e o desvio padr˜ao foi 1.9. Porque a variˆancia ´e aproximadamente igual ´a m´edia, ele acha que pode ser razo´avel descrever o n´umero de ovos por ninho como tendo uma distribui¸c˜ao Poisson com m´edia 3.8.

(a) Fa¸ca o gr´afico dessa distribui¸c˜ao como em suas notas de aula.

(b) Se esta realmente representa a distribui¸c˜ao populacional, qual seria a proa- bilidade de encontrar um ninho com mais do que 5 ovos?

(c) Qual seria a probabilidade de n˜ao encontrar nenhum ovo num ninho?

(26)

5 Intervalos de Confian¸ca

5.1 A id´ eia b´ asica de intervalos de confian¸ca

Suponha que estejamos interessados num parˆametro populacional verdadeiro (mas desconhecido) θ. Podemosestimaro parˆametroθusando informa¸c˜ao de nossa amostra. Chamamos o ´unico n´umero que representa o valor mais plaus´ıvel do parˆametro (baseado nos dados amostrais) de umaestimativa pontualdeθ. Contudo, sabemos que o valor estimado na maior parte das vezes n˜ao ser´a exatamente igual ao valor verdadeiro. Ent˜ao, tamb´em seria interessante encontrar umintervalo de confian¸ca que forne¸ca um intervalo de valores plaus´ıveis para o parˆametro baseado nos dados amostrais.

Umintervalo de confian¸ca de 95%para um parˆametro populacional fornece um intervalo no qual estariamos 95% confiantes de cobertura

do verdadeiro valor do parˆametro.

Tecnicamente, 95% de todos os intervalos de confian¸ca que construirmos conter˜ao o verdadeiro valor do parˆametro (dado que todas as suposi¸c˜oes envolvidas estejam corretas). Ent˜ao se obtivermos um intervalo de confian¸ca para o parˆametro θ para cada uma dentre 100 amostras aleat´orias da popula¸c˜ao, somente 5, em m´edia destes intervalos de confian¸ca n˜ao conter˜ao θ.

Podemos obter intervalos de confian¸ca de 95% para:

m´edias, diferen¸cas de m´edias, propor¸c˜oes, diferen¸cas em propor¸c˜oes, etc.

Podemos tamb´em criar intervalos de confian¸ca de 90%, 99%, 99.9%, etc, mas os intervalos de confian¸ca de 95% s˜ao os mais utilizados.

(27)

5.2 Teorema Central do Limite

Uma raz˜ao para a distribui¸c˜ao Normal ser considerada t˜ao importante ´e porquequal- quer que sejaa distribui¸c˜ao da vari´avel de interessepara grande amostras, a dis- tribui¸c˜ao das m´edias amostrais ser˜ao aproximadamente normalmente dis- tribu´ıdas, e tender˜ao a uma distribui¸c˜ao normal `a medida que o tamanho de amostra crescer. Ent˜ao podemos ter uma vari´avel original com uma distribui¸c˜ao muito difer- ente da Normal (pode at´e mesmo ser discreta), mas se tomarmos v´arias amostras grandes desta distribui¸c˜ao, e ent˜ao fizermos um histograma das m´edias amostrais, a forma se parecer´a como uma curva Normal.

A distribui¸c˜ao da m´edia amostral ¯X ´e aproximadamente Normal com m´ediaµe desvio padr˜aoσ/√

n.

Aquiµ eσs˜ao a m´edia e o desvio padr˜ao populacionais das medidas individuais X, en´e o tamanho amostral. Denota-se

X¯ ∼N(µ, σ2/n).

A aproxima¸c˜ao para a normal melhora `a medida que o tamanho amostral cresce.

Este resultado ´e conhecido como oTeorema Central do Limitee ´e not´avel porque permite-nos conduzir alguns procedimentos de inferˆencia sem qualquer conhecimento da distribui¸c˜ao da popula¸c˜ao.

5.3 Exemplo simulado

Podemos ilustrar o Teorema Central do Limite por um exemplo simulado. O diagrama na pr´oxima p´agina sumariza os resultados de um experimento no qual foi utilizado um computador para gerar 2000 observa¸c˜oes de duas distribui¸c˜oes bem diferentes (linha superior). N´os ent˜ao geramos uma amostra de tamanho 2 de cada distribui¸c˜ao e calculamos a m´edia. Este procedimento foi repetido 1999 vezes e a segunda linha mostra os histogramas das m´edias resuktantes das amostras de tamanho dois. Isto foi repetido com m´edia amostrais onde as amostras s˜ao de tamanhos 5 (terceira linha) e 10 (quarta linha).

Note como a forma da distribui¸c˜ao muda `a medida que se muda de uma linha para a pr´oxima, e como as duas distribui¸c˜oes em cada linha tornam-se mais similares nas suas formas `a medida que o tamanho das amostras aumenta. Ainda mais, cada distribui¸c˜ao parece mais e mais com uma distribui¸c˜ao Normal. N˜ao ´e necess´ario uma amostra de tamanho muito grande para ver uma forma Normal.

As m´edia populacionais para as duas distribui¸c˜oes s˜ao 5 e 3 respectivamente. Note como, quanto maior o tamanho de amostra mais perto as m´edias amostrais tendem a estar da m´edia populacional.

(28)

0 2 4 6 8 10

0100200300400

x

0 2 4 6 8 10

0100200300400

y

0 2 4 6 8 10

0100200300400

(x1+x2)/2

0 2 4 6 8 10

0100200300400

(y1+y2)/2

0 2 4 6 8 10

0100200300400

(x1+x2+..+x5)/5

0 2 4 6 8 10

0100200300400

(y1+y2+..+y5)/5

200300400 200300400

(29)

5.4 Intervalos de confian¸ca de 95% para uma m´ edia

Na se¸c˜ao anterior vimos que para uma amostra suficientemente grande a distribui¸c˜ao das m´edias amostrais em torno da m´edia populacional ´e Normal com desvio padr˜ao σ/√

n. Chamamos deσ/√

noerro padr˜ao(SE) da m´edia, uma vez que quanto menor seu valos. tanto mais pr´oximas estar˜ao as m´edias amostrais da m´edia populacionalµ (i.e. tanto menor ser´a oerro).

m´edia populacional = µ desvio padr˜ao populacional = σ

S.E. da m´edia = σ/√ n

Isto significa que 68.3% de todas as m´edias amostrais cair˜ao dentro de ±1 SE da m´edia populacionalµ. Similarmente 95% de todas as m´edias amostrais cair˜ao dentro de±1.96×SE deµ.

ent˜ao intervalos da forma

x−1.96× σ

√n , x¯+ 1.96× σ

√n) conter˜ao a verdadeira m´edia populacional µ95% das vezes.

Umproblemacom a constru¸c˜ao de tais intervalos ´e que n˜ao sabemos o verdadeiro desvio padr˜ao populacional σ. Para grandes tamanhos amostrais, contudo, o desvio padr˜ao amostralsser´a uma boa estimativa deσ. Portanto, podemos substituirσpor sde modo que podemos calcular o erro padr˜ao como

SE = s/√ n,

e um intervalo de confian¸ca de aproximadamente 95% paraµ´e:

x−1.96× s

√n , ¯x+ 1.96× s

√n).

Este tipo de intervalo de confian¸ca para a m´edia pode ser usado para grandes amostras, independentemente da distribui¸c˜ao da vari´avel original.

(30)

5.5 intervalos de confian¸ca mais exatos

Para amostras pequenas, onde s ´e uma estimativa menos confi´avel de σ, devemos construir nosso intervalo de confian¸ca de uma forma ligeiramente diferente.

Ao inv´es de usar o valor 1.96, usamos um valor ligeiramente maior para refletir nossa redu¸c˜ao na confian¸ca. Obtemos o valor requerido da tabela de distribui¸c˜ao t.

Tomamos o valor correspondente `a linha r = n−1 graus de liberdade. Note que quanto menorn, maiores os valores det. Ent˜ao um intervalo de confian¸ca exato ´e

x−t(n−1,0.05)× s

√n , ¯x+t(n−1,0.05)× s

√n).

Note ainda que `a medida quencresce, o valor det torna-se pr´oximo a 1.96.

Repareque se a distribui¸c˜ao da vari´avel original ´e muito distante de ser normal- mente distribu´ıda, e o tamanho amostral ´e muito pequeno, ent˜ao as m´edias amostrais n˜ao ter˜ao uma distribui¸c˜ao aproximadamente normal e portanto este tipo de intervalo de confian¸ca n˜ao ser´a muito preciso e n˜ao deveria ser utilizado.

(31)

A distribui¸c˜ ao t

Valores detpara que P(|T |> t) =p, ondeT tem um distribui¸c˜aoT de Student comrgraus de liberdade.

p

0.20 0.10 0.05 0.01 0.001

1 3.078 6.314 12.706 63.657 636.619 2 1.886 2.920 4.303 9.925 31.599 3 1.638 2.353 3.182 5.841 12.924 4 1.533 2.132 2.776 4.604 8.610 5 1.476 2.015 2.571 4.032 6.869 6 1.440 1.943 2.447 3.707 5.959 7 1.415 1.895 2.365 3.499 5.408 8 1.397 1.860 2.306 3.355 5.041 9 1.383 1.833 2.262 3.250 4.781 10 1.372 1.812 2.228 3.169 4.587 11 1.363 1.796 2.201 3.106 4.437 12 1.356 1.782 2.179 3.055 4.318 13 1.350 1.771 2.160 3.012 4.221 14 1.345 1.761 2.145 2.977 4.140 15 1.341 1.753 2.131 2.947 4.073 16 1.337 1.746 2.120 2.921 4.015 r 17 1.333 1.740 2.110 2.898 3.965 18 1.330 1.734 2.101 2.878 3.922 19 1.328 1.729 2.093 2.861 3.883 20 1.325 1.725 2.086 2.845 3.850 21 1.323 1.721 2.080 2.831 3.819 22 1.321 1.717 2.074 2.819 3.792 23 1.319 1.714 2.069 2.807 3.768 24 1.318 1.711 2.064 2.797 3.745 25 1.316 1.708 2.060 2.787 3.725 26 1.315 1.706 2.056 2.779 3.707 27 1.314 1.703 2.052 2.771 3.690 28 1.313 1.701 2.048 2.763 3.674 29 1.311 1.699 2.045 2.756 3.659 30 1.310 1.697 2.042 2.750 3.646 40 1.303 1.684 2.021 2.704 3.551 50 1.299 1.676 2.009 2.678 3.496 60 1.296 1.671 2.000 2.660 3.460 70 1.294 1.667 1.994 2.648 3.435 80 1.292 1.664 1.990 2.639 3.416 90 1.291 1.662 1.987 2.632 3.402 100 1.290 1.660 1.984 2.626 3.390

1.282 1.645 1.960 2.576 3.291

(32)

5.6 Exemplos

5.6.1 Diˆametro de ´arvores castanheiras

A seguir encontra-se uma amostra de 10 ´arvores castanheiras todas com 8 anos de idade numa certa floresta. O diˆametro (polegadas) das ´arvores foram medidos `a uma altura de 3 p´es:

19.4 21.4 22.3 22.1 20.1 23.8 24.6 19.9 21.5 19.1

Queremos encontrar um intervalo de confian¸ca de 95% para o verdadeiro diˆametro m´edio de todas as ´arvores castanheiras dessa idade na floresta. Usando uma calcu- ladora, encontramos que ¯x= e que s= . O erro padr˜ao ´e portanto:

SE = s

√n = .

Temos uma amostra de tamanhon= 10, ent˜ao da tabela da distribui¸c˜aottemos que t= .

Ent˜ao o intervalo de confian¸ca de 95% para a m´edia populacional ´e

¯

x±t×SE

Portanto estamos 95% confiantes de que o diˆametro m´edio da popula¸c˜ao da qual a amostra foi retirada est´a entre e .

Quais suposi¸c˜oes foram feitas? Podemos checar essas suposi¸c˜oes?

5.6.2 Comprimento de plantas

Temos medidas dos comprimentos de 100 plantas que nasceram de sementes que foram plantadas ao mesmo tempo. Um histograma dos dados tem uma forma aproximada- mente normal, e a m´edia amostral e o desvio padr˜ao amostral foram 74mm and 2.34mm, respectivamente. Construa um intervalo de confian¸ca para o comprimento m´edio populacional de plantes dessa mesma esp´ecie.

(33)

5.7 Exerc´ıcios 3

1. Os pulsos em repouso de 920 pessoas sadias foram tomados, e uma m´edia de 72.9 batidas por minuto (bpm) e um desvio padr˜ao de 11.0 bpm foram obtidos.

Construa um intervalo de confian¸ca de 95% para a pulsa¸c˜ao m´edia em repouso de pessoas sadias com base nesses dados.

2. Tendo sido medido o eixo maior de 9 gr˜aos de quartzo de um corpo arenoso em uma lˆamina de arenito, obteve-se um comprimento amostral m´edio de 1,5mm e um desvio padr˜ao de 0,3mm. Deseja-se construir um intervalo de confian¸ca para o comprimento m´edio dos gr˜aos de quartzo do corpo arenoso.

3. Os QIs de 181 meninos com idades entre 6-7 anos de Curitiba foram medidos.

O QI m´edio foi 108.08, e o desvio padr˜ao foi 14.38.

Calcule um intervalo de confian¸ca de 95% para o QI m´edio populacional dos meninos entre 6-7 anos de idade em Curitiba usando estes dados.

Interprete o intervalo de confian¸ca com palavras.

Foi necess´ario assumir que os QIs tˆem distribui¸c˜ao normal neste caso? Por quˆe?

4. A seguinte tabela mostra os QIs de crian¸cas por classe social dos pais.

Classe social M´edia DP N´umero Limite inferior Limite superior

I Profissional 112.27 13.16 30 107.36 117.18

II Gerencial 112.65 11.01 78

IIIa N˜ao-Manual

(cl´erico) 108.86 13.94 28

IIIb Manual

(com pr´atica) 104.38 14.41 152

IV Manual

(com pouca pr´atica) 96.97 10.13 37

V Manual

(sem pr´atica) 98.85 14.02 20

Complete as duas ´ultimas colunas, as quais contem intervalos de confian¸ca de 95% para o QI m´edio. Ilustre os IC graficamente.

Comente os padr˜oes gerais que vocˆe vˆe.

(34)

5.8 Intervalos de confian¸ca para uma propor¸c˜ ao

Pesquisadores frequentemente expressam a frequˆencia de ocorrˆencia de um item numa amostra como uma propor¸c˜ao do total. Por exemplo, uma amostra de larvas de mosquito coletadas de um lago com ´agua limpa parada contem 80 larvas das quais 60 s˜aoAedes detritus. A propor¸c˜ao daquela esp´ecie na amostra ´e 60/80 = 0.75 ou 75%.

Considerando esta amostra uma amostra aleat´oria, esta propor¸c˜ao ´e uma estimativa da propor¸c˜ao total populacional. Outras amostras forneceriam estimativas ligeiramente diferentes daquela propor¸c˜ao.

Sejano tamanho da amostra e sejaxo n´umero observado do evento de interesse.

Ent˜ao estimamos a propor¸c˜ao populacional pcom a propor¸c˜ao observada ˆp=x/n.

Da mesma forma que um conjunto de m´edias amostrais s˜ao distribu´ıdas nas prox- imidades da m´edia populacional, as propor¸c˜oes amostrais ˆps˜ao distribu´ıdas ao redor da verdadeira propor¸c˜ao populacional p. Devido ao Teorema Central do Limite, para ngrande epn˜ao muito pr´oximo de 0 ou 1, a distribui¸c˜ao de ˆpser´a aproximadamente normalmente distribu´ıda com m´edia pe um desvio padr˜ao dado por

rp(1−p)

n .

Chamamos SE=

qp(1−p)

n de erro padr˜ao da propor¸c˜ao amostral. Podemos usar isto na constru¸c˜ao de um intervalo de confian¸ca para a verdadeira propor¸c˜aop.

Um intervalo de confian¸ca de aproximadamente 95% parap´e portanto (ˆp−1.96×SE , pˆ+ 1.96×SE)

onde

SE =

rp(1ˆ −p)ˆ

n .

Note que n˜ao sabemos o verdadeiro valor dep, e portanto usamos ˆpna f´ormula acima para estimar SE.

Uma regra geral ´e que este intervalo de confian¸ca ´e v´alido quando quando temos ambosnˆpen(1−p) maiores do que digamos 10.ˆ

Em alguns livros o divisor n−1 ´e utlizado. N˜ao se preocupe quanto a isso; o intervalo resultante n˜ao ser´a notavelmente diferente.

5.8.1 Exemplo

Calcule um intervalo de confian¸ca de 95% para a propor¸c˜ao de larvas de mosquito no lago da esp´ecie Aedes detritus. Interprete os resultados.

(35)

5.9 Compara¸c˜ ao de intervalos de confian¸ca

Suponha que tenhamos dois ou mais grupos separados, por exemplo, machos e fˆemeas.

Algumas vezes pode-se construir um intervalo de confian¸ca de 95% para a m´edia para cada um dos grupos, e ent˜ao contr´oi-se um gr´afico com esses intervalos contra um eixo comum para verificar se existe uma interse¸c˜ao (i.e. existem alguns valores em comum).

Se os intervalos n˜ao se sobrep˜oem, ent˜ao temos (pelo menos) 95% de confian¸ca de que as verdadeiras m´edias n˜ao s˜ao iguais. Embora estes gr´aficos sejam ´uteis para visualiza¸c˜ao, utilizaremos um aboradgem mais formal (veja Se¸c˜ao 7) para construir um intervalo de confian¸ca para a diferen¸ca entre duas m´edias ou a diferen¸ca entre duas propor¸c˜oes.

5.9.1 Exemplo

Considere os dados de um estudo investigando a existˆencia de um balan¸co entre a propor¸c˜ao de peixes machos e fˆemeas de uma certa esp´ecie em dois lagos distintos.

A propor¸c˜ao observada de machos capturados no primeiro lago foi 74.4% dentre 43 capturados e no segundo foi 60% dentre 50. Podemos agora construir intervalos de confian¸ca para as percentagens correspondente nas popula¸c˜oes dos dois lagos.

5.10 Exerc´ıcios 4

1. Um amigo sugere que vocˆe lance uma moeda para ajudar vocˆe a tomar uma decis˜ao muito importante, o resultado tamb´em o afetar´a. Seu amigo sugere que vocˆe escolha cara para tomar a decis˜ao A, e coroa para tomar a decis˜ao B a qual ´e a preferida por ele. O ´unico problema ´e que seu amigo insiste que vocˆe use uma moeda “da sorte” dele. Vocˆe fica um pouco suspeito e decide fazer um experimento enquanto seu amigo n˜ao est´a olhando. Vocˆe lan¸ca a moeda 40 vezes e cara aparece somente 13 vezes. Construa um intervalo de 95% de confian¸ca para a verdadeira propor¸c˜ao de carasppara ajud´a-lo a decidir se vocˆe acredita ou n˜ao que a moeda ´e balanceada. O que vocˆe conclui?

2. Numa pesquisa eleitoral, 57 dentre 150 entrevistados afirmaram que votariam no candidato X. Com uma confian¸ca de 90%, o que vocˆe pode dizer acerca da propor¸c˜ao real de votos aquele candidato ter´a?

3. Dentre 100 peixes capturados num certo lago, 18 n˜ao estavam apropriados para consumo devido aos n´ıveis de polui¸c˜ao do ambiente. Construa um intervalo de confian¸ca de 99% para a correspondente verdadeira propor¸c˜ao.

(36)

6 Testes de Hip´ oteses

6.1 Introdu¸c˜ ao e nota¸c˜ ao

Em geral, intervalos de confian¸ca s˜ao a forma mais informativa de apresentar os acha- dos pricipais de um estudo. Contudo, algumas vezes existe um particular interesse em decidir sobre a verdade ou n˜ao de uma hip´otese espec´ıfica (se dois grupos tˆem a mesma m´edia ou n˜ao, ou se o parˆametro populacional tem um valor em particular ou n˜ao). Teste de hip´oteses fornece-nos a estrutura para que fa¸camos isto. Veremos que intervalos de confian¸ca e testes de hip´oteses est˜ao intimamente relacionados.

6.1.1 Os p´assaros migrat´orios engordam antes de migrar?

Considere os dados coletados pelo ornitologista na p´agina 15. Achamos apropriado apresentar os dados na forma de um ladder plot. Agora ´e natural perguntar se em m´edia estes p´assaros engordam entre Agosto e Setembro. Somente 10 p´assaros foram capturados e seu peso m´edio nas duas ocasi˜oes foram 11.47 e 12.35 ent˜ao o peso m´edio aumentou para esta amostra em particular. (Note que o mesmo conjunto de p´assaros foram medidos ambas as vezes.) Podemos generalizar para o resto dos p´assaros que n˜ao foram capturados? Ser´a que esta diferen¸ca poderia ser devida simplesmente ao acaso?

Queremostestar a hip´otese nula (H0) de que, em m´edia, n˜ao existe mudan¸ca no peso dos p´assaros. Assumiremos que os 10 p´assaros foram uma amostra aleat´oria de todos os p´assaros migradores daquela esp´ecie e usaremos primeiramente o que aprendemos sobre intervalos de confian¸ca para responder nossas perguntas.

Primeiro vamos calcular as mudan¸cas de peso (Setembro-Agosto):

1.9 0.7 2.2 0.1 2.0 1.0 0.8 0.2 1.8 0.3

Seja µ a mudan¸ca m´edia de peso na popula¸c˜ao. Ent˜ao nossa hip´otese nula H0 e a hip´otese alternativaH1podem ser escritas como segue:

H0: µ = 0, H1: µ 6= 0.

Um procedimento ´util ´e calcular um intervalo de confian¸ca para a m´edia populacional µcomo descrito na Se¸c˜ao 5.5, e ver ser o intervalo inclui 0 como um valor plaus´ıvel.

Agoran= 10, ¯x= 0.88 es= 1.065 para as diferen¸cas, ent˜ao SE =s/√

n= 1.065/

10 = 0.337,

e um valor-tde 2.262 ´e obtido da colunaP = 0.05 e linhar=n−1 = 9. Um intervalo de confian¸ca de 95% paraµ´e portanto

(0.882.262×0.337, 0.88 + 2.262×0.337) = (0.12, 1.64).

O intervalo n˜ao contem o valor 0, fornecendo evidˆencias contra a hip´otese nula.

(37)

Podemos dizer: “existem evidˆencias significativas (P < 0.05) de que, em m´edia, os p´assaros da esp´ecie estudada mudam de peso de Agosto para Setembro. Estamos 95% confiantes de que em m´edia os pesos aumentam por um montante entre 0.12 e 1.64 gramas.”

Mas e o intervalo de 99%? Ser´a que ele conteria o valor 0? Este intervalo seria mais amplo e ent˜ao ´e mais prov´avel que ele contenha 0. Se ele n˜ao incluir 0, isto indicaria uma evidˆencia ainda mais forte contraH0.

Calculando o intervalo de confian¸ca exatamente da mesma forma, exceto que desta vez precisamos olhar na colunaP = 0.01 para obtert= 3.250:

(0.883.250×0.337, 0.88 + 3.250×0.337) = (−0.21, 1.97).

Como esperado, este ´e mais amplo, e agora inclui o valor 0.

Podemos agora dizer: “n˜ao existem evidˆencias significativas ao n´ıvel de 1% de que, em m´edia, os p´assaros da esp´ecie estudada mudam de peso de Agosto para Setembro.”

O que n´os acabamos de fazer foi conduzir um teste perfeitamente v´alido para a hip´otese nula usando intervalos de confian¸ca. Podemos fazer o teste mais rapidamente e obter exatamente as mesmas conclus˜oes pelo seguinte procedimento:

Calcule t = (¯x−0)/SE= 0.88/0.337 = 2.61, o n´umero de erros padr˜ao que ¯x dista de 0.

Compare este valor det com aqueles na linhar=n−1 = 9 da tabela.

Para este exemplo,t= 2.61 o qual est´a entre os valores nas colunasP = 0.01 e P = 0.05. Ent˜ao nosso valor deve corresponder a umP entre estes e portanto devemos ter 0.01 < P <0.05. (P ´e a probabilidade de observar um valor de t t˜ao grande ou mais extremo do que 2.61 seµ= 0.)

(38)

6.2 Procedimento geral de teste

1. Estabele¸ca ahip´otese nula, H0 e a hip´otese alternativa H1.

2. Decida qual otestea ser usado, checando se este ´e v´alido para o seu problema.

3. Calcule aestat´ıstica de teste, T.

4. Encontre a probabilidade (p-valor) de observar um valor t˜ao extremo ou maior do que Tsea hip´otese nula ´e de fato verdadeira. Vocˆe precisar´a se referir aosval- ores cr´ıticosnas tabelas estat´ısticas as quais fornecemp-valores correspondendo aos valores das estat´ıstica de teste.

5. Avalie a for¸ca da evidˆencia contra H0.(Quanto menorp-valor, tanto mais evidˆencia contra a hip´otese nula.) Se neces´ario, decida se esta ´e evidˆencia suficiente para rejeitar(oun˜ao rejeitar) a hip´otese nula.

6. Estabele¸ca asconclus˜oeseinterpreta¸c˜aodos resultados.

Op-valor ´e a probabilidade de observar dados t˜ao extremos quanto os obtidos se a hip´otese nula ´e verdadeira. Note as seguintes interpreta¸c˜oes dep-valores:

P 0.10 N˜ao existe evidˆencia contra H0

P < 0.10 Fraca evidˆencia contra H0

P < 0.05 Evidˆencia significativa. . .

P < 0.01 Evidˆencia altamente significativa. . . P < 0.001 Evidˆencia muito altamente significativa. . .

Esteja ciente da diferen¸ca entre significˆancia estat´ıstica e significˆancia pr´atica. Um efeito pode ser estatisticamente significante mas n˜ao ter qualquer importˆancia pr´atica e vice-versa. Por exemplo, um estudo muito grande pode estimar a diferen¸ca entre a m´edia de peso de plantas como sendo 0.0001 gramas e concluir que a diferen¸ca

´e estat´ısticamente significativa (p < 0.05). Contudo, na pr´atica, esta diferen¸ca ´e neglig´ıvel e provavelmente de pouca importˆancia pr´atica.

(39)

6.3 Teste para uma m´ edia

Na Se¸c˜ao 5.1.1 conduzimos, atrav´es de um exemplo, o chamadoteste-tpara uma ´unica m´edia. Os passos principais de tal test-t para uma amostra aleat´oriax1, x2, . . . , xnde uma popula¸c˜ao com m´ediaµs˜ao dados a seguir:

1. Estabele¸ca a hip´otese nula, H0: µ=µ0, e a hip´otese alternativa H1: µ6=µ0. 2. Calcule a m´edia amostral ˆµ= ¯xe o desvio padr˜ao amostrals.

3. Calcule o erro padr˜ao, SE=s/√ n.

4. Calcule a estat´ıstica de testet= (ˆµ−µ0)/SE. Este ´e o n´umero de erros padr˜ao que ˆµdista do valor de hip´oteseµ0.

5. Encontre op-valor da distribui¸c˜aot, comr=n−1 graus de liberdade, da tabela usando os valores absolutos da estat´ıstica de teste.

6. Estabele¸ca conclus˜oes e interprete os resultados.

6.4 Teste para uma propor¸c˜ ao

Agora suponha que tenhamos um valor hipot´etico p0 para uma propor¸c˜ao. Podemos realisar um teste de H0:p=p0 praticamente da mesma forma que o test-t acima. A dualidade com intervalos de confian¸ca segue exatamente da mesma forma.

Suponha que tenhamos uma amostra aleat´oria de tamanho nde uma popula¸c˜ao de interesse onde a verdadeira propor¸c˜ao de membros numa categoria em particular ´e p. A hip´otese nula ´e H0: p=p0. Se o n´umero observado na categoria de interesse ´e x, ent˜ao um teste da hip´otese ´e como segue:

1. Estabele¸ca a hip´otese nula, H0: p=p0, e a hip´otese alternativa H1: p6=p0. 2. Calcule a propor¸c˜ao amostral ˆp=x/n.

3. Calcule o erro padr˜ao, SE=p ˆ

p(1−p)/n.ˆ

4. Calcule t = (ˆp−p0)/SE, o n´umero de erros padr˜ao que ˆp dista do valor de hip´otese p0.

5. Encontre op-valor usando o valor absoluto da estat´ıstica de teste da tabela da distribui¸c˜ao normal (ou equivalentemente datcomr=graus de liberdade).

Uma regra geral ´e que este teste ´e v´alido quando quando temos ambosnˆpen(1−p)ˆ maiores do que digamos 10.

6.4.1 Exemplo

Referindo-se ao exemplo da Se¸c˜ao 5.8, suponha que algu´em tenha sugerido de ex- periˆencias passadas que 60% das larvas de mosquito no lago deveriam ser da esp´ecie Aedes detritus. Foram encontrados 60 desse tipo de uma amostra de 80. Os dados suportam esta hip´oteste?

(40)

6.5 Decis˜ oes e poder

Ao tomar uma decis˜ao a favor ou contra uma hip´otese existem dois tipos de erros que vocˆe pode cometer. Vocˆe pode rejeitar a hip´otese nula quando de fato ela ´e verdadeira (erro tipo I) ou vocˆe pode falhar em rejeitar H0 quando de fato ela ´e falsa (erro tipo II). Existe um balan¸co entre esses dois tipos de erros, no sentido de que ao tentar-se minizar a possibilidade de um tipo, aumenta-se a probabilidade do outro. Frequentemente denotamos as probabilidades destes dois erros como α e β respectivamente.

Decis˜ao

Verdade Aceitar H0 Rejeitar H0

H0 verdadeiro — Erro Tipo I

(1−α) (α)

H0falso Erro Tipo II —

β (1−β)

Opoderde um teste ´e a probabilidade de rejeitar a hip´otese nula quando esta ´e de fato falsa. Isto ´e igual a 1−β. Em geral, quanto maior o tamanho da amostra, maior o poder do teste. ´E desej´avel decidir sobre um tamanho de amostra conveniente antes de conduzir um estudo de forma que o resultados do teste de hip´otese ter´a poder suficiente para responder a quest˜ao cient´ıfica de interesse.

6.6 Dimensionamento de amostras

Vimos no Cap´ıtulo 5 e nas se¸c˜oes anteriores deste cap´ıtulo como construir intervalos e testes de hip´oteses para os principais parˆametros populacionais. Em todos os, su- pusemos dado o n´ıvel de confian¸ca desses intervalos e testes. Evidentemente, o n´ıvel de confian¸ca deve ser fixado de acordo com a probabilidade de acerto que se deseja ter na estima¸c˜ao por intervalo e testes. Sendo conveniente, o n´ıvel de confian¸ca pode ser aumentado at´e t˜ao pr´oximo de 100% quanto se queira, mas isso resultar´a em in- tervalos de amplitude cada vez maiores (e testes com poderes cada vez menores), o que significa perda de precis˜ao na estima¸c˜ao. ´E claro que seria desej´avel termos inter- valos com alto n´ıvel de confian¸ca e pequena probabilidade de erro e grande precis˜ao.

Isso por´em requer uma amostra suficientemente grande, pois, paranfixo, confian¸ca e precis˜ao variam em sentidos opostos.

Veremos a seguir como determinar o tamanho das amostras necess´arias nos casos de estima¸c˜ao da m´edia ou de uma propor¸c˜ao populacional. Vimos na Se¸c˜ao 5.4 que o intervalo de confian¸ca de 95% para a m´edia µda popula¸c˜ao quando σ´e conhecido tem semi-amplitudeddada pela express˜ao

d=z σ

√n,

onde z = 1.96 para uma confian¸ca de 95%. Ora, o problema ent˜ao resolvido foi, fixados o n´ıvel de confian¸ca (1−α= 0.95) en, determinard. Mas, ´e evidente dessa express˜ao que podemos resolver outro problema. Fixados, d e o n´ıvel de confian¸ca, determinar n, que ´e o problema da determina¸c˜ao do tamanho de amostra necess´ario

Referências

Documentos relacionados

Não há materiais diversificados e apropriados para o ensino da leitura e escrita em kaingang, é baixíssimo o percentual de professores indígenas formados atuando

Para Nietzsche, a superficialidade da consciência, uma vez desmascarada, não abre a via de nenhuma outra fundamentação mais segura. A descoberta de que a consciência, a razão,

Utilize um cabo HDMI para ligar o terminal [HDMI IN] na parte de trás do monitor ao termi- nal HDMI do dispositivo de saída digital..

Artigo 40.º Falta, insuficiência e irregularidade do mandato Artigo 41.º Patrocínio a título de gestão de negócios Artigo 42.º Assistência técnica aos advogados Artigo 43.º

Centro Federal de Educa¸c˜ ao Tecnol´ ogica Celso Suckow da Fonseca – CEFET/RJ Disciplina:

Intervalo de confian¸ca para a m´ edia quando a variˆ ancia populacional ´ e desconhecida.

2011, O Regime Imagético Pankararu: (Tradução Intercultural na Cidade de São Paulo). Tese de doutorado, Florianópolis, SC: Universidade Federal de Santa Catarina, Centro

Este impacto do aumento da volatilidade é sempre positivo porque, apesar de ser maior, quer a probabilidade de se verificarem subidas, quer a