• Nenhum resultado encontrado

ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R

N/A
N/A
Protected

Academic year: 2021

Share "ESTATÍSTICA BÁSICA COM USO DO SOFTWARE R"

Copied!
29
0
0

Texto

(1)

SOFTWARE R

©Adilson dos Anjos

Departamento de Estat´ıstica

UFPR

(2)

M ´

ODULO

3

: Distribui¸

oes de probabilidade

Objetivo do M´

odulo

A

o final desse m´odulo o aluno dever´a ser capaz de compreender e utilizar as principais distribui¸c˜oes de probabilidade.

3.1

Distribui¸

oes de probabilidade.

Quando se realiza um teste de hip´otese por exemplo, em geral, utiliza-se uma amostra para a tomada de decis˜oes. Para a utiliza¸c˜ao de um teste estat´ıstico, ´e neces-s´ario conhecer algumas caracter´ısticas da amostra que se est´a avaliando. Uma caracte-r´ıstica importante ´e a distribui¸c˜ao da vari´avel em estudo. Conhecendo-se a distribui¸c˜ao da vari´avel, pode-se realizar algumas inferˆencias sobre a popula¸c˜ao baseado na amostra. Al´em disso, conhecer um pouco das caracter´ısticas de uma distribui¸c˜ao de pro-babilidade ajuda a entender como os testes de hip´otese s˜ao realizados.

3.1.1 Vari´avel aleat´oria

Uma vari´avel aleat´oria ´e uma vari´avel, que tem seu valor determinado pelo resul-tado de um experimento aleat´orio.

Um Experimento aleat´orio ´e aquele que n˜ao se pode prever o resultado antes do experimento ser realizado.

Uma vari´avel aleat´oria pode ser Discreta ou Cont´ınua.

Vari´avel aleat´oria discreta: ´e aquela que assume valores enumer´aveis (con-t´aveis).

Exemplos:

ˆ N´umero de pe¸cas defeituosas em um lote; ˆ N´umero de rem´edios falsos em uma farm´acia; ˆ N´umero de empregados em uma empresa;

(3)

Vari´avel aleat´oria cont´ınua: ´e aquela que pode assumir qualquer valor contido em um ou mais intervalos (n˜ao enumer´avel).

Exemplos: ˆ Altura; ˆ Peso.

ˆ Renda de uma fam´ılia;

3.1.2 Distribui¸c˜ao de uma Vari´avel Aleat´oria discreta ´

E uma “lei” que lista todos os poss´ıveis valores que a vari´avel aleat´oria pode assu-mir e sua probabilidade correspondente de ocorrer. Veja o exemplo de uma distribui¸c˜ao (tabela 1):

Tabela 1: Freq¨uˆencia e freq¨uˆencia relativa do n´umero de rem´edios falsos por farm´acia. N´umero de Rem. Falsos Freq. (valores de X) Freq. Relativa P (X = x)

0 30 0,015 1 470 0,235 2 850 0,425 3 490 0,245 4 160 0,080 N=2000 Soma=1

A distribui¸c˜ao de probabilidade da vari´avel aleat´oria discreta X = N´umero de rem´edios falsos pode ser vista na tabela 2. P (X = x) ´e a probabilidade de ocorrer um valor de X.

Tabela 2: Distribui¸c˜ao de probabilidades do n´umero de rem´edios falsos por farm´acia. N´umero de Rem. Falsos Probabilidade (P (X = x))

0 0,015 1 0,235 2 0,425 3 0,245 4 0,080 P P (x) = 1

Uma vari´avel aleat´oria ´e representada por uma letra mai´uscula enquanto que uma ocorrˆencia de uma vari´avel aleat´oria ´e denotada por uma letra min´uscula.

(4)

Por exemplo: A vari´avel aleat´oria n´umero de irm˜aos pode ser denotada por I, enquanto que 2 irm˜aos pode ser denotado por i = 2.

Caracter´ısticas de uma distribui¸c˜ao de probabilidade: 1. 0 ≤ P (x) ≤ 1 para cada valor de X;

2. P P (x) = 1

Interpretando uma distribui¸c˜ao de probabilidade,

ˆ Qual a probabilidade do n´umero de rem´edios falsos ser igual a 2? P (x = 2) = 0, 425.

ˆ Qual a probabilidade do n´umero de rem´edios falsos ser maior do que 2? P (x > 2) = p(x = 3) + p(x = 4) = 0, 325.

3.1.3 Representa¸c˜ao gr´afica

A representa¸c˜ao gr´afica das probabilidades de uma vari´avel aleat´oria discreta pode ser feita com o uso do gr´afico de barras. Observe que, como a vari´avel ´e discreta, as barras n˜ao est˜ao justapostas (figura 1):

3.1.4 Defini¸c˜ao de uma vari´avel aleat´oria cont´ınua

Uma vari´avel aleat´oria cont´ınua ´e aquela que pode assumir qualquer valor contido em um ou mais intervalos (os valores s˜ao n˜ao enumer´aveis).

Exemplos: diˆametro de uma pe¸ca, altura ou peso de pessoas, tempo de vida de um produto.

Considere a vari´avel aleat´oria X = comprimento em cm:

> cm<-c(31,13,12,22,27,33,17,26,16,22,18,13,16, 23,20,18,22,15,26, + 12,20,21,23,27,30)

(5)

Figura 1: Gr´afico de barras.

0

10

20

30

40

> brk<-seq(10,35,5);brk # intervalos de classe [1] 10 15 20 25 30 35

> classes<-c("10-14","15-19","20-24","25-29","30-35") # nomes das classes > freq<-table(cut(cm,breaks=brk,right=FALSE,labels=classes));freq

10-14 15-19 20-24 25-29 30-35

4 6 8 4 3

Descubra o que significa o argumento right=FALSE.

Nesse exemplo (tabela 3), os intervalos das classes foram definidos arbitraria-mente.

No R, os dados da frequˆencia relativa podem ser obtidos da seguinte maneira: > freq.r<-table(cut(cm,breaks=brk,right=FALSE,

+ labels=classes))/length(cm) > freq.r

(6)

Tabela 3: Exemplo: comprimento em cm. Comprimento (cm) Freq. Freq. Relativa

10`15 4 0,16 15`19 6 0,24 19`24 8 0,32 24`29 4 0,16 29`35 3 0,12 Soma 25 1, 0 10-14 15-19 20-24 25-29 30-35 0.16 0.24 0.32 0.16 0.12

O gr´afico de distribui¸c˜ao tem a forma da figura 2.

No R, um histograma de uma vari´avel aleat´oria cont´ınua pode ser obtido da seguinte forma (2):

A “curva” de uma vari´avel aleat´oria cont´ınua ´e chamada de “Fun¸c˜ao densidade de probabilidade” (f.d.p) e possui as seguintes propriedades:

1. A probabilidade que X assuma um valor em algum intervalo ´e 0 ≤ p(x) ≤ 1.

2. A soma de todas as probabilidades de todos os intervalos poss´ıveis ´e sempre 1. Na figura 3, pode-se observar que a probabilidade de ocorrˆencia de um determi-nado intervalo (a,b) ´e dada pela ´area limitada pelos pontos a e b (a ≤ P (x) ≤ b)

A probabilidade de um “ponto” ´e sempre igual a zero, quando X ´e uma vari´avel aleat´oria cont´ınua.

Ex: P(x = 61) = 0

Podemos estar interessados em um valor que X assuma em um determinado intervalo. Por exemplo P (60 ≤ x ≤ 63) (veja figura 4):

Dependendo da forma da f.d.p., pode-se calcular a ´area sob a curva e ent˜ao, saber qual a probabilidade associada ao intervalo. Algumas distribui¸c˜oes s˜ao bastante

(7)

Figura 2: Histograma de uma vari´avel aleat´oria cont´ınua. > hist(cm,breaks=brk,right=F,labels=classes,xlab='comprimento', + ylab='Freq¨u^encia',main="")

comprimento

Freqüência

10

15

20

25

30

35

0

2

4

6

8

10−14

15−19

20−24

25−29

30−35

(8)

Figura 3: Probabilidade em uma f.d.p. .

x=a x=b

Figura 4: Probabilidade de (60 ≤ x ≤ 63)

(9)

3.1.5 Distribui¸c˜oes de Probabilidade no R

No R todas as distribui¸c˜oes de probabilidade implementadas possuem uma carac-ter´ıstica em comum. ´E poss´ıvel encontrar valores das probabilidades, simular valores da distribui¸c˜ao entre outros utilizando as seguintes letras na frente do nome da distri-bui¸c˜ao.

O R possui v´arias distribui¸c˜oes de probabilidade implementadas. Para ver uma lista completa, utilize o help do R.

Em algumas packages existem distribui¸c˜oes espec´ıficas, como por exemplo no pacote CircStats, que trabalha com a distribui¸c˜ao von Mises.

Basicamente, existem quatro formas de utiliza¸c˜ao das distribui¸c˜oes. 1. O prefixo r para simula¸c˜ao (gera observa¸c˜oes da distribui¸c˜ao); 2. O prefixo d para densidade;

3. O prefixo q para quantis;

4. O prefixo p para distribui¸c˜ao (acumulada);

Na Tabela 4 h´a uma lista das fun¸c˜oes uilizadas nesse curso e os argumentos necess´arios para seu uso:

Tabela 4: Fun¸c˜oes e parˆametros das distribui¸c˜oes.

Distribui¸c˜ao Parˆametros densidade distribui¸c˜ao quantis amostra aleat´oria Binomial n,p dbinom(x,n,p) pbinom(x,n,p) qbinom(x,n,p) rbinom(10,n,p) Normal µ e σ dnorm(x,µ,σ) pnorm(x,µ,σ) qnorm(x,µ,σ) rnorm(10,µ,σ) Qui-quadrado gl dchisq(x,gl) pchisq(x,gl) qchisq(x,gl) rchisq(10,gl) t gl dt(x,gl) pt(x,gl) qt(x,gl) rt(10,gl) F m,n df(x,m,n) pf(x,m,n) qf(x,m,n) rf(10,m,n)

Por exemplo, veja algumas aplica¸c˜oes para a Distribui¸c˜ao Normal: > set.seed(134) # fixa a semente para gerar observa¸c~oes > x<-rnorm(50) # 50 n´umeros de uma Normal(0,1)

(10)

[1] 0.28026768 0.19827379 0.38369333 0.37516112 0.17627588 [6] 0.32990921 0.06166613 0.39838812 0.38635081 0.15371194 [11] 0.19865022 0.05323562 0.33990260 0.37327224 0.17363865 [16] 0.23685922 0.23005889 0.39508659 0.30730784 0.04070822 [21] 0.32429768 0.13085971 0.13635178 0.32270508 0.39439878 [26] 0.20531763 0.39401124 0.39467621 0.13713545 0.17331256 [31] 0.39739666 0.25810898 0.32153474 0.20912285 0.39632485 [36] 0.20186587 0.23950535 0.29166353 0.38707032 0.32232774 [41] 0.38806710 0.11699417 0.14630320 0.30339363 0.38194980 [46] 0.39135616 0.10338647 0.07385972 0.06707394 0.22468615 > qnorm(.975) [1] 1.959964 > pnorm(1.96) [1] 0.9750021

Experimente fazer o seguinte gr´afico (figura5):

No R existem muitas outras distribui¸c˜oes implementadas: pois (Poisson), unif (Uniforme), gamma (Gama) entre outras.

Cada uma possui os argumentos espec´ıficos, como graus de liberdade, parˆametros de posi¸c˜ao, dispers˜ao, forma etc.

(11)

Figura 5: Curva Normal > x<-seq(-4,4,0.1) > plot(x,dnorm(x),type="l") # ou > curve(dnorm(x),from=-4,to=4)

−4

−2

0

2

4

0.0

0.1

0.2

0.3

0.4

x

dnor

m(x)

(12)

Execute os comandos a seguir, e veja alguns gr´aficos da distribui¸c˜ao Normal: > plot(function(x) dnorm(x, 100, 8), 60, 140, ylab='f(x)')

> plot(function(x) dnorm(x, 90, 8), 60, 140, add=T, col=2) > plot(function(x) dnorm(x, 100, 15), 60, 140, add=T, col=3)

(13)

3.2

Distribui¸

ao de Probabilidade Binomial

A distribui¸c˜ao de probabilidade Binomial ´e uma das distribui¸c˜oes discretas de probabilidade mais utilizadas. Essa distribui¸c˜ao pode ser utilizada para encontrar a probabilidade de um resultado ocorrer x vezes em n tentativas. Por exemplo, em uma f´abrica, sabe-se que a probabiliadde de ocorrˆencia de um produto defeituoso ´e 0,05. Pode-se estar interessado em descobrir qual a probabilidde de que em uma amostra de trˆes produtos exatamente um seja defeituoso.

Aplica¸c˜oes da Distribui¸c˜ao Binomial podem ser encontradas em m´etodos es-tat´ısticos aplicados a qualidade e em experimentos de an´alise sensorial, por exemplo.

Um experimento que satisfaz as seguintes condi¸c˜oes ´e chamado um experimento Binomial:

1. Existem n experimentos idˆenticos;

2. Cada experimento tem somente dois resultados poss´ıveis, com probabilidade p de sucesso e q = 1 − p de fracasso (p + q = 1);

3. Os experimentos s˜ao independentes (o resultado de um n˜ao interfere no resultado do outro);

4. A probabilidade dos dois resultados (sucesso e fracasso) permanece constante. A express˜ao da Distribui¸c˜ao Binomial ´e:

n x

 pxqn−x Onde:

n = n´umero de experimentos ou ensaios p = probabilidade de sucesso

q = 1 − p = probabilidade de fracasso ou falha x = n´umero de sucessos em n experimentos n − x = n´umero de fracassos em n experimentos

Um exemplo: padr˜ao de qualidade de rem´edios;

5% dos medicamentos, elaborados em uma farm´acia de manipula¸c˜ao, est˜ao fora do padr˜ao de qualidade. 3 medicamentos s˜ao selecionados, ao acaso, desta farm´acia. ´E observado se o medicamento est´a “dentro”ou “fora”do padr˜ao de qualidade.

(14)

Qual a probabilidade que exatamente 1 esteja dentro do padr˜ao de qualidade? Considerando D=0,95 (Dentro do padr˜ao) e F=0,05 (Fora do padr˜ao), os resul-tados poss´ıveis na sele¸c˜ao ao acaso de 3 medicamentos s˜ao: DFF, FDF e FFD.

P (DF F ) = P (D ∩ F ∩ F ) = P (D)P (F )P (F ) = 0, 95 × 0, 05 × 0, 05 P (F DF ) = P (F ∩ D ∩ F ) = P (F )P (D)P (F ) = 0, 05 × 0, 95 × 0, 05 P (F F D) = P (F ∩ F ∩ D) = P (F )P (F )P (D) = 0, 05 × 0, 05 × 0, 95

P (1 estar dentro entre 3) = P (DF F ouF DF ouF F D) = P (DF F ∪ F DF ∪ F F D) = P (DF F ) + (F DF ) + (F F D) = 0, 0024 + 0, 0024 + 0, 0024 = 0, 0071 = 0, 71%

Usando a f´ormula binomial n = n´umero de ensaios = 3

x = n´umero de sucessos = 1 (dentro do padr˜ao) n − x = n´umero de fracassos = 3 − 1 = 2

p = p(sucesso) = dentro do padr˜ao = 0,95 q = p(fracasso) = fora do padr˜ao = 0,05

tem-se que, p(x = 1) =n x  pxqn−x = 310, 9510, 052 = 3! 1!(2)!0, 95 × 0, 05 2 = 3 × 0, 95 × 0, 0025 = 0, 0071 P (x = 1) = n x  pxqn−x = 310, 9510, 052 = 1!(2)!3! 0, 95 × 0, 052 = 3 × 0, 95 × 0, 0025 = 0, 0071

(15)

[1] 0.007125

3.2.1 M´edia e variˆancia da distribui¸c˜ao Binomial

Para a distribui¸c˜ao Binomial a m´edia ´e denotada por µ(x) = np e a variˆancia por V ar(x) = npq.

3.3

Exemplos

3.3.1 Teste dois em cinco - uma aplica¸c˜ao

Em experimentos de an´alise sensorial existe um chamado ”Teste dois em cinco”. Para um julgador s˜ao oferecidos 5 produtos (tratamentos), destes, 2 s˜ao iguais e outros trˆes diferentes. O julgador deve tentar identificar quais s˜ao os dois produtos iguais.

Em termos de an´alise estat´ıstica interessa saber se a propor¸c˜ao de acertos entre os provadores foi simplesmente ao acaso, ou se realmente h´a diferen¸ca entre os tratamentos avaliados. O teste estat´ıstico utilizado nesse caso ´e baseado na distribui¸c˜ao binomial.

No ”Teste dois em cinco”, sabe-se que a probabilidade de um provador ou julgador, acertar, ao acaso, quais os tratamentos s˜ao iguais ´e 1 em 10 tentativas, pois existem 10 combina¸c˜oes de dois tratamentos poss´ıveis.

No R, existe a fun¸c˜ao binom.test() que calcula a probabilidade dos acertos terem ocorrido ao caso ou n˜ao. Nessa fun¸c˜ao, deve-se informar o n´umero de acertos, o n´umero de julgadores, a probabilidade de acerto ao acaso (1/10) e se o teste ´e bilateral ou unilateral. Nessa situa¸c˜ao, a hip´otese alternativa ´e ˆp ≥ 1/10, pois o interesse est´a em saber se a propor¸c˜ao de acertos n˜ao foi ao acaso.

A sintaxe da fun¸c˜ao ´e dada da seguinte maneira: > binom.test(7,20,p=1/10,alt="greater")

Exact binomial test data: 7 and 20

number of successes = 7, number of trials = 20, p-value = 0.002386

(16)

95 percent confidence interval: 0.1773109 1.0000000

sample estimates: probability of success

0.35

Considerando um n´ıvel de significˆancia de 5%, rejeita-se a hip´otese nula, ou seja, o n´umero de acertos n˜ao ocorreu ao acaso. Os provadores conseguiram identificar corretamente os dois tratamentos iguais.

Testes de hip´oteses ser˜ao vistos com mais detalhes nos p´roximos m´odulos.

3.4

Distribui¸

ao Normal

Defini¸c˜ao: A vari´avel aleat´oria X tem distribui¸c˜ao Normal com parˆametros: µ (−∞ < µ < +∞) e σ (0 < σ < +∞) se a f.d.p. ´e dada por

f (x) = 1 σ√2πexp

(x−µ)2

2σ2 , −∞ < x < +∞

Em que µ ´e a m´edia e σ ´e o desvio padr˜ao. Esses dois termos s˜ao chamados de parˆametros populacioanais. Quando trabalha-se com uma amostra de uma vari´avel aleat´oria, tem-se estimativas destes parˆametros. No caso da distribui¸c˜ao Normal tem-se a m´edia amostral denotada por ¯x e o desvio padr˜ao amostral denotado por s.

A distribui¸c˜ao Normal ´e denotada por X ∼ N (µ, σ). Aqui, µ representa o parˆ a-metro m´edia e σ representa o desvio padr˜ao.

Graficamente, a Distribui¸c˜ao Normal possui uma forma de sino (figura6): A distribui¸c˜ao Normal possui as seguintes propriedades

1. Sim´etrica ao redor da m´edia; 2. ´Area sob a curva ´e igual a 1;

Dependendo dos parˆametros, µ (posi¸c˜ao) e σ (desvio padr˜ao), a curva pode ter v´arias formas (figura7). Quanto maior o desvio padr˜ao, maior ser´a a dispers˜ao

(17)

Figura 6: Distribui¸c˜ao Normal: forma de sino

0,5 0,5

3.4.1 Distribui¸c˜ao Normal Padr˜ao

Se µ = 0 e σ2 = 1, tem-se uma distribui¸c˜ao Normal Padr˜ao denotada por N (0, 1). Se X ∼ N (µ, σ2) ent˜ao a vari´avel aleat´oria z definida por

z = x − µ σ ter´a distribui¸c˜ao N (0, 1).

No R o gr´afico da distribui¸c˜ao Normal pode ser criado da seguinte maneira: 3.4.2 Encontrando as probabilidades sob a curva Normal

Considere uma vari´avel aleat´oria z ∼ N (0, 1). Dado um valor z, ´e poss´ıvel en-contrar a ´area (probabilidade) sob a curva limitada por esse valor.

Existem tabelas da Distribui¸c˜ao Normal Padr˜ao que fornecem a ´area limitada por esse ponto. Assim como existem tabelas diferentes da distribui¸cao Normal, algumas

(18)

Figura 7: Formas da distribui¸c˜ao Normal em fun¸c˜ao do parˆametro de dispers˜ao.

30

40

50

60

70

0.00

0.02

0.04

0.06

0.08

x

f(x)

N(50,5)

N(50,7)

N(50,9)

fornecem o valor de −∞ at´e o ponto, outras fornecem o valor de 0 at´e o ponto, os softwares tamb´em fornecem essas probabilidades de maneira diferente.

No R ´e fornecida a probabilidade ou ´area de −∞ at´e o ponto dese-jado. Se tiver interesse em uma ´area acima do ponto, ser´a necess´ario obter o valor complementar.

No R pode-se utilizar a fun¸c˜ao pnorm() para obter tais probabilidades. Veja alguns exemplos:

1. para z = 2, 0, qual a ´area sob a curva (Figura 9)? No R pode-se encontrar essa ´area da seguinte maneira: > pnorm(2)-.5

(19)

Figura 8: Distribui¸c˜ao Normal padr˜ao. > x<-seq(-10,10,length=100)

> plot(x,dnorm(x,0,1),xlab="x", ylab="f(x)", type='l', main="")

−10

−5

0

5

10

0.0

0.1

0.2

0.3

0.4

x

f(x)

interessa a ´area delimita entre 0 e 2, diminuimos 0.5 (pela propriedade de simetria da distribui¸c˜ao Normal).

(20)

Figura 9: Curva da Distribui¸c˜ao Normal.

0 2

3. P (z > 2, 32)

Como agora interessa a ´area acima do ponto 2,32, basta apenas fazer: > 1-pnorm(2.32)

[1] 0.01017044

4. P (z < −1, 54) = P (z > 1, 54) > pnorm(-1.54)

[1] 0.06178018

Utilizou-se a propriedade de simetria. 5. P (1, 19 < z < 2, 12)

(21)

2,32 4

(22)
(23)

3.4.3 Padronizando uma distribui¸c˜ao Normal qualquer

Se X ´e uma vari´avel aleat´oria com distribui¸c˜ao Normal com parˆametros µ e σ, um valor qualquer x pode ser convertido para um valor z com distribui¸c˜ao N (0, 1), utilizando-se o seguinte procedimento:

z = (x − ¯x) s

Onde ¯x e s s˜ao a m´edia e o desvio padr˜ao, respectivamente, da distribui¸c˜ao Normal.

Aten¸c˜

ao:

No R a fun¸c˜ao pnorm() utiliza os parˆametros m´edia e desvio padr˜ao e n˜ao m´edia e variˆancia.

3.5

Exemplos:

1. Considere que X ∼ N (25, 16). Qual o valor de z para os seguintes valores de X? (a) P(25<x<32) z = 32−25 4 = 1, 75 e z = 25−25 4 = 0 P (25 < x < 32) = P (0 < z < 1, 75) = 0, 4599 No R, > pnorm(32,mean=25,sd=4)-pnorm(25,mean=25,sd=4) [1] 0.4599408 (b) P(18<x<34) z = 18−254 = −1, 75 e z = 34−254 = 2, 250 P (18 < x < 34) = P (−1, 75 < z < 2, 25) = 0, 4599 + 0, 4878 = 0, 9477 No R > pnorm(34,mean=25,sd=4)-pnorm(18,mean=25,sd=4) [1] 0.9477164

2. Suponha que sua nota foi 85 em um teste. A m´edia geral da turma foi 92 com um desvio padr˜ao de 8. O que sua nota significa dentro da turma? Por exemplo, utilizando a fun¸c˜ao pnorm():

(24)

[1] 0.190787

Esse valor indica que sua nota ´e melhor do que 19.08% das notas da turma. Ainda, vocˆe pode observar esse resultado por outro lado:

> 1-pnorm(85,mean=92,sd=8) [1] 0.809213

Esse valor indica que 80.92% dos alunos da classe foram melhores do que vocˆe. Uma op¸c˜ao dispon´ıvel em todas as distribui¸c˜oes ´e a op¸c˜ao q ou quantil da dis-tribui¸c˜ao. Com essa op¸c˜ao ´e poss´ıvel encontrar qual o valor correspondente para um determinado percentil da distribui¸c˜ao.

Por exemplo, qual o valor associado ao percentil 10 para as notas da classe? > qnorm(0.10,92,8)

[1] 81.74759

Esse n´umero indica que 10% das notas possuem at´e esse valor.

3.6

Distribui¸

ao t de Student

Quando se tem amostras pequenas (em geral n<30) e n˜ao se tem garantia de que a vari´avel resposta tenha distribui¸c˜ao Normal, se a vari´avel aleat´oria tiver distribui¸c˜ao sim´etrica, ou aproximadamente Normal, pode-se utilizar a distribui¸c˜ao t de Student.

Normalmente utiliza-se essa distribui¸c˜ao para constru¸c˜ao de intervalos de confi-an¸ca e alguns testes de hip´oteses.

A distribui¸c˜ao t ´e bastante semelhante `a distribui¸c˜ao Normal. Possui a propri-edade de simetria, a ´area sob a curva da distribui¸c˜ao possui o valor 1 e em rela¸c˜ao `a Normal, a curva ´e um pouco mais dispersa (figura10).

Na distribui¸c˜ao t, o parˆametro que caracteriza essa distribui¸c˜ao s˜ao os Graus de Liberdade (gl).

Em geral, os graus de liberdade s˜ao dados como n − 1. Em algumas situa-¸c˜oes o n´umero de graus de liberdade varia em fun¸c˜ao do m´etodo estat´ıstico

(25)

Figura 10: Distribui¸c˜ao t > plot(function(x) dt(x, df = 2), -4, 4, main="",ylim=c(0,0.40), + lty=1,ylab="") > plot(function(x) dt(x, df = 7), -4, 4, add=T,lty=2) > plot(dnorm, -4, 4,add=T,lty=4) > legend(1.5, 0.35, c("t (GL=2)", "t (GL=7)", "N (0,1)"), + lty = 1:3,cex=.8)

−4

−2

0

2

4

0.0

0.1

0.2

0.3

0.4

x

t (GL=2) t (GL=7) N (0,1) gl = n − 1

Ou seja, essa distribui¸c˜ao pode ser representada por apenas um parˆametro. Uma defini¸c˜ao simples para graus de liberdade ´e que ele representa o n´umero de observa¸c˜oes que podem ser escolhidas de forma independente.

(26)

3.7

Distribui¸

ao de Qui-quadrado (χ

2

)

Assim como a distribui¸c˜ao t, a distribui¸c˜ao de qui-quadrado ´e representada tam-b´em pelos graus de liberdade. Utiliza-se a letra grega χ para representar essa distri-bui¸c˜ao.

A forma dessa distribui¸c˜ao depende do n´umero de graus de liberdade (figura11). Figura 11: Distribui¸c˜ao Qui-quadrado.

> plot(function(x) dchisq(x, df = 2), 0, 20, main="", + ylim=c(0,0.40),lty=1,ylab="")

> plot(function(x) dchisq(x, df = 7), 0, 20, add=T,lty=2) > plot(function(x) dchisq(x, df = 12), 0, 20, add=T,lty=3)

> legend(12, 0.35, c(expression(chi[2]^2), expression(chi[7]^2), + expression(chi[12]^2)), lty = 1:3,cex=.8)

0

5

10

15

20

0.0

0.1

0.2

0.3

0.4

x

χ22 χ72 χ122

Pesquise o argumento expression() utilizado nesse gr´afico. Ele serve para inserir express˜oes matem´aticas ou algarismos gregos ou s´ımbolos. Para quem utiliza o software LATEXessa formata¸c˜ao ´e conhecida.

(27)

Utiliza-se a distribui¸c˜ao de qui-quadrado para v´arios testes estat´ısticos que ser˜ao estudados nos m´odulos sobre inferˆencia estat´ıstica.

(28)

3.8

Exerc´ıcios - M´

odulo 3

N˜ao ´e necess´ario entregar esse exerc´ıcio. Ele serve apenas para vocˆe praticar o que aprendeu nesse m´odulo.

1. Altere os percentuais de letalidade e veja como seria o comportamento dos ´obitos. 2. Obtenha as probabilidades da distribui¸c˜ao Normal Padr˜ao para os seguintes casos:

(a) P (−1, 56 < z < 2, 31) (Resposta: 0.930175982343256)

(29)

(b) P (z > −0, 75) (Resposta: 0.773372647623132)

−0,75 0

3. Considere a vari´avel Peso dos dados biom´etricos dos participantes do curso. Con-siderando que essa vari´avel possui distribui¸c˜ao Normal, qual ´e o percentual de pessoas que possuem peso superior ao seu?

4. Considere a vari´avel Altura dos dados biom´etricos dos participantes do curso. Considerando que essa vari´avel possui distribui¸c˜ao Normal, qual o valor de altura que separa os 10% mais altos dos mais baixos?

5. Simule 9 vetores de tamanho 100 da distribui¸c˜ao Normal com diferentes valores de m´edia e desvio padr˜ao. Visualize essas simula¸c˜oes graficamente. Interprete os gr´aficos procurando entender o comportamento de distribui¸c˜ao dos dados.

Referências

Documentos relacionados

X e que n˜ ao seja poss´ıvel inverter a sua fun¸ c˜ ao de distribui¸ c˜ ao ou n˜ ao dispomos de um m´ etodo para gerar dessa vari´ avel aleat´ oria. Entretanto, sabemos

Neste contexto, para cada diferente situa¸ c˜ ao apresentada a seguir, defina a vari´ avel aleat´ oria, sua distribui¸ c˜ ao de probabilidades e calcule a probabilidade

O Serviço Nacional de Lepra ficou incumbido da organização do programa do curso de lepra, bem como da fixação do periodo de estudos, e de acordo com o diretor geral do

(2013) foi empregado Constructal Design para a otimização geométrica de um sistema de conversão de energia das ondas do mar em energia elétrica do tipo CAO, variando o

2. Determine a fun¸c˜ ao de distribui¸c˜ ao da vari´ avel aleat´ oria do Exerc´ıcio 2.a). Se cada valor for igualmente prov´ avel e a m´ edia de X for igual a 6, de- termine

2. Determine a fun¸c˜ ao de distribui¸c˜ ao da vari´ avel aleat´ oria do Exerc´ıcio 2.a). Se cada valor for igualmente prov´ avel e a m´ edia de X for igual a 6, de- termine

Desejamos coletar uma amostra de uma vari´ avel aleat´ oria X com distribui¸ c˜ ao normal de m´ edia desconhecida e variˆ ancia 30.. Qual deve ser o tamanho da amostra para que,

Na saída o mesmo deverá pessoalmente ou através de um se delegado anotar a lista de velejadores que saem para o evento e fazer a checagem dos equipamentos de segurança