Aula14EG

(1)

DEFINIÇÃO DE GRAUS DE LIBERDADE DE UMA ESTATÍSTICA Estatística: é uma função dos valores observados x1, x2, ... , xn.

Sejam: n x n i= i = 1 µ e n x n i= i − = 1 2 2 ) ( µ σ n gl n gl

isto é, há n valores “livres” (podem variar aleatoriamente) de Xi que devem ser

considerados para se calcular o valor da estatística.

se ∀ xi for desconhecido a estatística não pode ser determinada.

Agora: 1 ) ( 1 2 2 − − = = − n X X S n i i (n-1) gl

O simples fato de usar X− em lugar de

µ

tem-se (n-1) gl, pois para calcular S2_{, pressupõe} que já se tenha calculado X− anteriormente e para tal já usamos uma vez todos os valores da amostra.

DISTRIBUIÇÃO QUI-QUADRADO (_χ2_{) – Variável aleatória contínua}

Define-se uma variável 2

v

χ , com

ν

graus de liberdade, como sendo a soma de quadrados de

ν

variáveis normais padronizadas e independentes, isto é:

2 1 1 2 2 = = − = = v i i i i v X Z σ µ χ ν

onde: Zi: é uma variável aleatória normal com média 0 e variância 1. Zi~N(0,1)

(2)

- Formas Gráficas da distribuição de uma v.a. _χ2_{segundo os graus de liberdade v.} f( 2 v χ ) v =1 v = 3 v = 6 v =10 0 2 4 8 10 12 14 15 2 v χ

Função densidades de probabilidade

0 , 2 2 1 ) ( 2 1 2 2 > Γ = y −e− y v y f y v v

ν

2 ) ( ) ( = = y Var y E Obs:

1) para v→∞, a

χ

2tende à normal, com média maior do que zero.

2) para 2 2 1 1gl Z v= →χ = 3) Média, E

( )

χ_v2 =v Moda, _M

( )

2 ₌_v₋2, _para_v₌1 v

o χ não tem moda (veja gráfico)

Variância, Var

( )

_χ_v2 ₌2v

(3)

2 Tabelado χ

(

)

p P _χ_v2 ≥_χ_Tabelado2 = p v ... 95% ... 5% 20 ... 10,851 31,410

Ex1: Calcular o valor crítico

( )

2

Tab

χ de uma

χ

₂₀2 tal que:

a)

(

2 _≥ 2

)

₌0,05 2 ₌31,410 Tab Tab P χ χ χ b)

(

2 _≥ 2

)

₌0,95 2 ₌10,851 Tab Tab P χ χ χ c)

(

2 _≥ 2

)

₌0,75 2 ₌15,452 Tab Tab P χ χ χ

Ex2: Calcular os valores 2

1

Tab

χ e 2

2

Tab

χ com v=19 gl tal que: 90 , 0 ) ( 2 2 2 2 1 ≤ ≤ Tab = Tab P χ χ χ e ( 2 2 2 ) 0,50 2 1 ≤ ≤ Tab = Tab P χ χ χ 0.90 0,50 0,05 0,05 0,25 0,25 2 1 Tab χ 2 2 Tab χ _χ2 2 1 Tab χ 2 2 Tab χ _χ2 = = 19 05 , 0 v p 144 , 30 2 2 = →χTab ₌ = 19 25 , 0 v p 718 , 22 2 2 = →χTab = = 19 95 , 0 v p 117 , 10 2 1 = →χTab ₌ = 19 75 , 0 v p 2 14,562 1= →χ Tab

(4)

# DISTRIBUIÇÃO t de Student (William Gosset)

Função densidade de probabilidade: + ∈ℜ

Γ + Γ = + − t v t v v v t f v , 1 2 2 1 ) ( 2 ) 1 ( 2 π f(t) t 0 Definição: n s X t = −µ ~tv ou v Z t v2 χ = ~tv

Note claramente que t não é normal.

PROPRIEDADES

a) Ela é simétrica em relação a t = 0 Var(t) =

2 − v v b) 2 , 2 ) ( 0 ) ( > − = = = v v v t Var t E µ_t 2 v c) M0 =µt =Md =0 d) Para v→∞, ∞ → = v z f t f( ) ( ) lim

(5)

- USO DA TABELA t Fornece a 2 2

α

α = > t t P e 2 2 α α = − < t t P p t t p ≥ α =α = 2 Gráfico: α 2 α 2 −tα2 0 +tα2 Ex.: 1,7081 10 , 0 25 2 = → = = = α α φ t v Tabela unilateral BILATERAL Ex: 2,086 05 , 0 20 2 = → = = α α t v

Ex. Para v=30, qual o valor de tTabelado tal que

(

t ≤tTabelado

)

=0,95 P

(

−tTabelado ≤t≤tTabelado

)

=0,95 P Tabela 2,0423 05 , 0 30 = → = = Tabelado t v α

(

−2,0423≤ ≤2,0423

)

=0,95 ∴P t

(6)

Ex:

(

)

2 947 , 2 =

α

> t P Qual o valor de α? Pela tabela 0,005 2 01 , 0 = = α α e v=15gl. DISTRIBUIÇÃO F DE SNEDECOR Função densidade de probabilidade:

0 , 1 2 2 2 ) ( f 2 2 1 2 2 2 2 1 2 1 2 1 2 1 1 1 > + Γ Γ + Γ = ₊ − f f v v f v v v v v v f _v _v v v

Def. A distribuição F é a razão de duas variáveis independentes cada uma das quais distribuídas com

χ

v2₁ e

χ

v2₂ . Assim

(

)

1 2 2 2 2 2 1 2 ,

.

2 1 2 1 2 1

v

F

v v v v v v

χ

=

2 , 2 ) ( ₂ 2 2 _> − = = v v v F E µ_F

(

)

(

2

)

( 4), 4 2 2 ) ( ₂ 2 2 2 1 2 1 2 2 2 _> − − − + = = com v v v v v v v F Var σ_F

Dizemos que a v.a. F tem distribuição F de “Snedecor” com v graus de liberdade no 1

(7)

USO DA TABELA

α =0,05

0 fTabelado F

Ex.: Calcule o valor de fTabeladoF_α₍₁₀_,₁₂₎ para

α

=0,05 e

α

=0,01

(

)

(

0,01

)

30 , 4 05 , 0 75 , 2 = = = = α α Tabelado Tabelado f f

Obs: A tabela é unicaudal à direita e oferece a abscissa que deixa 5% ou 1% de área (probabilidade) à direita, uma vez fixados os graus de liberdade do numerador e

denominador. Para encontrarmos: 1−α

α

F₁₋_α₍_v₁_,_v₂₎ F_α₍_v₂_,_v₁₎

Ex: Determinar os valores fTab1 e fTab2 da distribuiçãoFα₍6,11₎ com α =0,10

2481 , 0 03 , 4 1 1 09 , 3 ) 6 , 11 ( 05 , 0 1 2 = = = = f f f Tab Tab 0,05 2 = α ₀_,₀₅ 2 = α

(

2 1

)

2 1 , ) , ( 1

1

v v v v

_F

F

α α

=

−

(8)

# INTERVALO DE CONFIANÇA PARA UM PARÂMETRO θ

Necessidade: A probabilidade de que a estimativa pontual θˆ de um parâmetro θ seja igual ao verdadeiro valor do parâmetro é muito pequena. Assim, um intervalo pode fornecer melhor informação sobre o verdadeiro parâmetroθ(médiaµ,variânciaσ2, p, σ ) .

[

θˆ1 ≤θ ≤θˆ2

]

Conceito: Construir um intervalo em torno da estimativa por ponto, de modo que esse intervalo tenha uma probabilidade conhecida

(

1−

α

)

a priori, de conter o verdadeiro valor do parâmetro.

(

−

)

= etc 98 , 0 95 , 0 90 , 0 1

α

Nível de confiança →

α

nível de significância (erro da afirmativa sobre o intervalo) θ Amostras 1 2 3 4 5 100

1) INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL

µ

a) quando a variância populacional

σ

2 é conhecida.

Seja uma v.a. X de uma população _X _~_N

(

_µ_, _σ2

)

_{já foi visto que:}

) 1 , 0 ( ~ , ~ 2 N n X Z e n N X σ µ σ µ = −

(9)

f(z) (1−α) α 2 α 2 −zα2 0 +zα2 z Por Construção:

(

α

)

α α ≤ ≤ = − − 1 2 2 Z z z P

(

α

)

σ µ α α ≤ − ≤ = − − 1 2 2 z n X z P

(

α

)

σ µ σ α α ≤ − ≤ = − − . 1 2 2 n X z n z P

(

α

)

σ µ σ _α α ≤− ≤− + = − − − − 1 2 2 n X z n z X P

(

α

)

σ

µ

σ

_α α

≥

−

=

−

+

− −

1

2 2

_n

X

z

_n

z

X

P

(

α

)

σ µ σ _α α ≤ ≤ + = − − − − 1 2 2 _n X z _n z X P + − = ∴ ₋ n z x n z x IC _α µ _α σ _α σ 2 2 ) 1 ( ( ) ;

INTERPRETAÇÃO: Se tomarmos 100 amostras e para cada uma delas calcularmos a média x e construirmos os intervalos IC´s, então (1−α)% desses intervalos conterão o verdadeiro valor da média populacional µ.

(10)

Exemplo: foi realizado um ensaio de corrosão de arame farpado com 64 peças de um lote de produção e verificou-se que o tempo que a peça suportou nesse teste apresentou uma média x = 200 horas. Calcular um intervalo de 95% de confiança para a verdadeira média

µ

sabendo-se que σ =16horas

Solução:(1−

α

)=0,95

α

=0,05 0,025 0,025 -1,96 1,96 z + − = 64 16 96 , 1 200 ; 64 16 96 , 1 200 95 IC

[

h h

]

IC₉₅_% = 196,08 ;203,92

- Exercício: Construa um IC₉₉_% com os dados do exemplo anterior.

2) Intervalo de confiança para a média populacional

µ

quando

σ

2é desconhecida

α

µ

_α α ≤ ≤ + = − − − − 1 . . 2 2 n S t X n S t X P ± = − − n S t X IC 2 ) 1 ( α (µ) α

Exemplo: Dado x =500, s=16 e n=25, determine o intervalo de confiança ao nível de 98%, para a média populacional.

Solução: Tabela t-Student 2,492

24 ) 1 25 ( 02 , 0 2 = → = − = = α α t gl v

(11)

± = 24 16 492 , 2 500 %) 98 ( IC = 492,03; 507,97 %) 98 ( IC

Exemplo: A seguinte amostra foi extraída de uma população normal: 6, 6, 7, 8, 9, 9, 9,10, 11, 12. Construir um intervalo para µ , ao nível de significância de 10%.

Solução: Tabela t-Student 1,833

9 ) 1 10 ( 10 , 0 2 = → = − = = α α t gl v

A partir dos dados, calcula-se x=8,7 e _s2 ₌4

= ± 10 2 833 , 1 7 , 8 %) 98 ( IC IC₍₉₈_%) = 7,51; 9,89

3) Intervalo de confiança para a variância

σ

2 de uma população normal.

Onde 2 _→_v₌_n₋1 v χ α 2 α 2

( )

− − = − − ₂ 2 1 2 2 2 2 2 1 ( ) ( 1); ( 1) α α α σ s _χn s_χ n IC

OBS: IC para σ , é suficiente extrair a raiz quadrada:

( ) − − − 2 2 1 2 2 2 2 ₍ ₁₎ , ) 1 ( α α χ χ n s n s

( )

α χ σ χα α = − − ≤ ≤ − − 1 ) 1 ( ) 1 ( 2 2 1 2 2 2 2 2 _n _S _n S P

(12)

4) Intervalo de confiança para a proporção populacional p (sucesso) α α α − ≤ ≤ + − = − − . (1 ) . (1 ) 1 2 2 n f f z f p n f f z f P − ± = − p f z f _n f IC ( ) (1 ) 2 ) 1 ( α α

onde: f – freqüência relativa do evento na amostra

) 1 , 0 ( ~ N npq np X Z = −

Maior intervalo será quando

n z f 4 1 . 2 1 2 α → = Var (X) Var(X) = nf(1-f) = n(f-f2₎ 2 1 0 2 ) ( ₌ ₋ ₌ ₌ ∂ ∂ f nf n f X Var cqd 2 1_f

Nota: Se X: número de sucessos, X~B(n,p), E(X)=np e Var(X)=npq. Agora, seja o estimador de p dado por

n X f = . E(f)= p n np n X E = = e n pq n npq n X Var f Var( )= = ₂ =

5) Intervalo de confiança para a soma (ou diferença) entre duas médias populacionais (µ₁±µ₂)(Quando as variâncias são conhecidas ou não).

a) Caso de variâncias conhecidas ( 2 )

2 2 1 eσ −conhecidas σ .

(

µ µ

)

σ σ α σ σ α α + ≤ ± ≤ ± + + = − − ± − − − − 1 . ) ( . ) ( 2 2 2 1 2 1 2 2 1 2 1 2 2 2 1 2 1 2 2 1 n n Z X X n n Z X X P

(13)

(

)

(

)

(

)

(

)

2 2 2 1 2 1 2 1 2 1 2 2 2 1 2 1 2 1 2 1 2 2 2 2 2 1 2 1 1 1 2 1 2 2 2 2 2 1 1 1 ; ~ , ~ , ~ . , ~ , ~ n n X X Z n n N X X n N X e n N X Como tes independen X e X com N X e N X σ σ µ µ σ σ µ µ σ µ σ µ σ µ σ µ + ± − ± = + ± ± − − − −

b) Caso de variâncias desconhecidas ( 2 )

2 2 1 eσ −desconhecidas σ

(

µ µ

)

α α α + ≤ ± ≤ ± + + = − − ± − − − − 1 . ) ( . ) ( 2 2 2 1 2 1 2 2 1 2 1 2 2 2 1 2 1 2 2 1 n S n S t X X n S n S t X X P

6) Intervalo de confiança para a diferença de duas proporções populacionais p1 e p2

(

)

_α α α − + − ≤ − ≤ − + − + − = − − − ) . (1 ) (1 ) ( ) . (1 ) (1 ) 1 ( 2 2 2 1 1 1 2 2 1 2 1 2 2 2 1 1 1 2 2 1 _n f f n f f z f f p p n f f n f f z f f P

(14)

EXERCÍCIOS

INTERVALO DE CONFIANÇA

Ex1) Uma máquina enche pacotes de café com uma variância igual a 100 g2. Ela estava regulada para enchê-los com 500 g em média. Agora ela se desregulou, e queremos saber qual a nova média µ. Uma amostra de 25 pacotes apresentou uma média igual a 485 g. Calcule um intervalo de 99% de confiança para µ . Está essa máquina realmente desregulada? Useα =0,01

99 , 0 2 2 < < + = − − − n z X n z X P α σ µ α σ 2 25 10 58 , 2 005 , 0 2 = z =− e n = = zα σ

[

479,84;490,16

]

16 , 5 485 2 58 , 2 485 005 , 0 = ± × = ± ± n z x σ

Sim, a máquina está desregulada a 1%. Agora um IC₉₅ nos dá:

[

481,08;488,92

]

2 96 , 1 485 %) 95 ; (µ = ± × = IC

Note que o IC à 95% é menor que o IC à 99%. Sim, a máquina também está desregulada a 5%.

Ex2) Uma amostra de n=500 pessoas de uma cidade foi escolhida e a cada pessoa foi feita uma pergunta a respeito da falta de água, para o qual foi apresentada uma solução pela prefeitura municipal. 300 pessoas responderam sim à pergunta. Deseja-se estimar a proporção de pessoas na cidade favoráveis à solução apresentada.

(15)

Solução: 1−α =0,95 60 , 0 ) 1 ( 96 , 1 ) 1 ( 96 , 1 = − + ≤ ≤ − − f n f f f p n f f f 500 ) 40 , 0 ( 60 , 0 96 , 1 60 , 0 500 ) 40 , 0 ( 60 , 0 96 , 1 60 , 0 − ≤ p≤ +

[

0 ,

5570

;

0 ,

6429

]

Ex3 Numa pesquisa de mercado, n=400 pessoas foram entrevistadas sobre novas marcas de leite. 60% destas pessoas preferiram à marca A. Calcule o maior IC₉₅_% para p. Solução: 049 , 0 60 , 0 600 . 1 1 ) 96 , 1 ( 60 , 0 ± = ±

[

0,551; 0,649

]

Ex4: Segundo os fabricantes de uma marca de pilha, seu produto tem média (8 horas) e desvio padrão de vida útil de 1 hora. Uma amostra de 36 pilhas apresentou uma média de vida útil de 7,5 horas e desvio-padrão de 0,8 horas. Estimar o intervalo de confiança (95%) para

µ

e

σ

e julgar se o fabricante está correto na sua afirmação. Solução n S t X 2 α ± − 0,025 2 05 , 0 2 = = α

(16)

INTERPOLAÇÃO LINEAR: 30 --- 2,042 35 ? 40 --- 2,021 |40 – 30| --- |2,042 – 2,021| |35 – 30| --- x 0315 , 2 0105 , 0 042 , 2 0105 , 0 10 ) 021 , 0 ( 5 2 = − = ∴ = = t_α x 36 8 , 0 0315 , 2 5 , 7 ±

[

7,2291; 7,7708

]

Agora,

( )

− − = − − ₂ 2 1 2 2 2 2 2 ) 1 ( ( 1); ( 1) α α α σ S _χn S_χ n IC 2 2 ; 35 2 2 ); 1 ( α

χ

α

χ

gl n− =

Interpolação Linear : Com

α

_{2 =}0,025

30 ---- 46,979 35 ? 40 ---- 59,34 x − − − − − − − − − | 30 35 | | 979 , 46 342 , 59 | | 30 40 | 1605 , 53 1815 , 6 2 2 35 = =

χ

_α gl x

(17)

(

2

)

₃₅2_;₀_,₉₇₅ 20,569 2 1 ; 1 − = = − χ χ_n _α − − 569 , 20 ) 1 36 ( ) 8 , 0 ( ; 1605 , 53 ) 1 36 ( ) 8 , 0 ( 2 2

[

0,4213; 1,0890

]

( )

[

0,6490;1,0435

]

) ( 2 = = ∴ICσ ICσ

∴ Há indícios de que o fabricante está correto em sua afirmação quanto ao desvio padrão, mas não em relação à média.

Ex5 : Uma amostra de 150 vacas leiteiras da raça holandesa, apresentou uma produção média de 1400 L de leite e o desvio padrão de 120 L num período de lactação. Uma amostra de 100 vacas da raça GIR apresentou uma produção média de 1200 L e desvio padrão de 80 L. Determinar os limites de confiança de (a) 95%, (b) 99%, para a diferença entre as produções médias das populações das raças holandesa e gir. Solução: (a) 95% 0,025 2 = α t ( ) gl gl tn n 248 2 100 150 2 2 1 = − + − + G G H H G H _n S n S t X X 2 2 2 + ± − α

( ) ( )

₂₀₀ ₂₄_,₇₉ 100 80 150 120 96 , 1 1200 400 . 1 − ± 2 + 2 = ± ∴ O IC₍₀_,₉₅₎ (µ₁−µ₂)=[175,2077 L; 224,7922 L] b) 99%

(18)

( ) ( )

₂₀₀ ₃₃_,₁₀ 100 80 150 120 617 , 2 200 . 1 400 . 1 − ± 2 ± 2 = ±

[

166,9l e 233,1l

]

Ex.6) Em uma amostra aleatória de 400 adultos e 600 adolescentes que assistem ao Globo Rural, 100 adultos e 300 adolescentes declararam que o apreciam. Determinar os limites de confiança de (a) 95%; (b) (99%) para a diferença entre as proporções de todos os adolescentes e adultos que assistem ao programa e o apreciam.

Adolescentes Adultos Solução: 0,25 400 100 ˆ 5 , 0 600 300 ˆ₁ = = p₂ = = p (a)

[

0,19 0,31

]

06 , 0 25 , 0 400 ) 75 , 0 )( 25 , 0 ( 600 ) 5 , 0 )( 5 , 0 ( 96 , 1 25 , 0 5 , 0 % 95 ), ( 1 2 e IC _P _P ± = + ± − = − (b)

[

0,17 0,33

]

08 , 0 25 , 0 400 ) 75 , 0 )( 25 , 0 ( 600 ) 5 , 0 )( 5 , 0 ( 58 , 2 25 , 0 5 , 0 % 99 ), ( 1 2 e IC _P _P ± = + ± − = −

As duas populações são diferentes, pois o intervalo não engloba o zero.

Ex.7) Uma empresa tem 2 filiais (A e B), para as quais os desvios padrões das vendas diárias são 5 e 3 peças, respectivamente. Uma amostra de 20 dias forneceu uma venda média diária de 40 peças para a filial A e 30 peças para a filial B. Supondo que a distribuição diária de vendas seja normal, construir um IC de 92% para a venda diária das 2 filiais.

(19)

Tabela normal: ₀_,₀₄ 1,75 2 = z = zα 2 2 2 1 2 1 2 2 1 n n z X X− + − ± _α σ +σ

(

)

20 9 20 25 75 , 1 30 40+ ± +

[

67,7;72,2

]

(20)

Em uma determinada progênie segregante, os indivíduos foram classificados em quatro fenótipos (A, B, C e D) com as freqüências observadas de respectivamente 103, 37, 28 e 8 indivíduos (176). As proporções esperadas pela teoria genética são 9/16, 3/16, 3/16 e 1/16, respectivamente.

Ho: As freqüências observadas concordam com as freqüências teóricas esperadas pela teoria genética.

Ha: As freqüências observadas não concordam com as freqüências teóricas esperadas pela teoria genética.

FENÓTIPO OBSERVADO ESPERADO

A 103 99 ×176 16 9 B 37 33 ×176 16 3 C 28 33 ×176 16 3 D 8 11 ×176 16 1 K = 4 classes

(

)

i i i k i calc _E E O 2 1 2 . − = = χ

Oi: Freqüência observada; Ei: Freqüência Esperada.

(

) (

)

2222 , 2 33 11 8 33 33 28 33 33 37 99 99 103 2 2 2 2 2 . = − + − + − + − = calc χ

(21)

Com 3 graus de liberdade: 2 7,8147 ) 05 , 0 ; 3 ( gl = χ

Como

χ

_cal2 <

χ

_TAB2 não rejeitamos Ho

∴ As freqüências observadas não diferem das esperadas.

∴ As freqüências observadas estão de acordo com a teoria genética.

2. TESTE QUI-QUADRADO DE INDEPENDÊNCIA

Ho: As variáveis não estão associadas Ha: As variáveis estão associadas

Num ensaio estudou-se a influência de brocas (inseto) na ocorrência de doenças na cultura da cana-de açúcar.

O número de parcelas com brocas e podridão vermelha é dado na seguinte tabela: PODRIDÃO VERMELHA Broca N S Totais 0 7 (3,7917) 0 (3.2083) 7 1 4 (3.7917) 3 (3.2083) 7 2 0 (2.7083) 5 (2.2917) 5 3 2 (2,1667) 2(1.8333) 4 4 0(0.5417) 1 (0,4583) 1 Totais 13 11 24

(22)

(

)

(

)

4 ) 1 2 )( 1 5 ( ) 1 )( 1 ( 067 , 13 4583 , 0 4583 , 0 1 7917 , 3 7917 , 3 7 2 2 2 = − − = − − = = − + + − = K I Liberdade de Graus calc χ χ₍2₄_gl_;₀_,₀₅₎ =9,488 Como

χ

_calc2 >

χ

_TAB2 rejeita-se Ho

Assim, à medida que aumenta o número de brocas para parcela aumenta o número de plantas doentes.

3) TESTE QUI-QUADRADO DE HOMOGENEIDADE

Critério de classificação I Mortos II Vivos Totais Inseticida I 220 280 500 Inseticida II 395 405 800 Totais 615 685 1300

Ho: P (Vivos| Inseticida I) = P (Vivos| Inseticida II) ou P (Mortos| Inseticida I) = P (Mortos| Inseticida II)

Isto é: se, variando o inseticida, não variar o critério, é possível admitir que as variáveis Inseticidas e situação (mortos e vivos) são independentes.

Ha: P(Vivos| Inseticida I) ≠ P(Vivos| Inseticidas II) ou

(23)

(

) (

)

₃_,₅₆₆ 54 , 421 54 , 421 405 46 , 263 46 , 263 280 46 , 378 46 , 378 395 54 , 236 54 , 236 220 2 2 2 2 ₌ − ₊ − ₊ − ₊ − ₌ calc χ 1 ) 1 2 )( 1 2 ( − − = = Liberdade de Graus 2 3,841 ) 05 , 0 ; 1 ( gl = χ Como 2 < 2 tab calc χ