DEFINIÇÃO DE GRAUS DE LIBERDADE DE UMA ESTATÍSTICA Estatística: é uma função dos valores observados x1, x2, ... , xn.
Sejam: n x n i= i = 1 µ e n x n i= i − = 1 2 2 ) ( µ σ n gl n gl
isto é, há n valores “livres” (podem variar aleatoriamente) de Xi que devem ser
considerados para se calcular o valor da estatística.
se ∀ xi for desconhecido a estatística não pode ser determinada.
Agora: 1 ) ( 1 2 2 − − = = − n X X S n i i (n-1) gl
O simples fato de usar X− em lugar de
µ
tem-se (n-1) gl, pois para calcular S2, pressupõe que já se tenha calculado X− anteriormente e para tal já usamos uma vez todos os valores da amostra.DISTRIBUIÇÃO QUI-QUADRADO (χ2) – Variável aleatória contínua
Define-se uma variável 2
v
χ , com
ν
graus de liberdade, como sendo a soma de quadrados deν
variáveis normais padronizadas e independentes, isto é:2 1 1 2 2 = = − = = v i i i i v X Z σ µ χ ν
onde: Zi: é uma variável aleatória normal com média 0 e variância 1. Zi~N(0,1)
- Formas Gráficas da distribuição de uma v.a. χ2segundo os graus de liberdade v. f( 2 v χ ) v =1 v = 3 v = 6 v =10 0 2 4 8 10 12 14 15 2 v χ
Função densidades de probabilidade
0 , 2 2 1 ) ( 2 1 2 2 > Γ = y −e− y v y f y v v
ν
ν
2 ) ( ) ( = = y Var y E Obs:1) para v→∞, a
χ
2tende à normal, com média maior do que zero.2) para 2 2 1 1gl Z v= →χ = 3) Média, E
( )
χv2 =v Moda, M( )
2 =v−2, parav=1 vo χ não tem moda (veja gráfico)
Variância, Var
( )
χv2 =2v2 Tabelado χ
(
)
p P χv2 ≥χTabelado2 = p v ... 95% ... 5% 20 ... 10,851 31,410Ex1: Calcular o valor crítico
( )
2Tab
χ de uma
χ
202 tal que:a)
(
2 ≥ 2)
=0,05 2 =31,410 Tab Tab P χ χ χ b)(
2 ≥ 2)
=0,95 2 =10,851 Tab Tab P χ χ χ c)(
2 ≥ 2)
=0,75 2 =15,452 Tab Tab P χ χ χEx2: Calcular os valores 2
1
Tab
χ e 2
2
Tab
χ com v=19 gl tal que: 90 , 0 ) ( 2 2 2 2 1 ≤ ≤ Tab = Tab P χ χ χ e ( 2 2 2 ) 0,50 2 1 ≤ ≤ Tab = Tab P χ χ χ 0.90 0,50 0,05 0,05 0,25 0,25 2 1 Tab χ 2 2 Tab χ χ2 2 1 Tab χ 2 2 Tab χ χ2 = = 19 05 , 0 v p 144 , 30 2 2 = →χTab = = 19 25 , 0 v p 718 , 22 2 2 = →χTab = = 19 95 , 0 v p 117 , 10 2 1 = →χTab = = 19 75 , 0 v p 2 14,562 1= →χ Tab
# DISTRIBUIÇÃO t de Student (William Gosset)
Função densidade de probabilidade: + ∈ℜ
Γ + Γ = + − t v t v v v t f v , 1 2 2 1 ) ( 2 ) 1 ( 2 π f(t) t 0 Definição: n s X t = −µ ~tv ou v Z t v2 χ = ~tv
Note claramente que t não é normal.
PROPRIEDADES
a) Ela é simétrica em relação a t = 0 Var(t) =
2 − v v b) 2 , 2 ) ( 0 ) ( > − = = = v v v t Var t E µt 2 v c) M0 =µt =Md =0 d) Para v→∞, ∞ → = v z f t f( ) ( ) lim
- USO DA TABELA t Fornece a 2 2
α
α = > t t P e 2 2 α α = − < t t P p t t p ≥ α =α = 2 Gráfico: α 2 α 2 −tα2 0 +tα2 Ex.: 1,7081 10 , 0 25 2 = → = = = α α φ t v Tabela unilateral BILATERAL Ex: 2,086 05 , 0 20 2 = → = = α α t vEx. Para v=30, qual o valor de tTabelado tal que
(
t ≤tTabelado)
=0,95 P(
−tTabelado ≤t≤tTabelado)
=0,95 P Tabela 2,0423 05 , 0 30 = → = = Tabelado t v α(
−2,0423≤ ≤2,0423)
=0,95 ∴P tEx:
(
)
2 947 , 2 =α
> t P Qual o valor de α? Pela tabela 0,005 2 01 , 0 = = α α e v=15gl. DISTRIBUIÇÃO F DE SNEDECOR Função densidade de probabilidade:0 , 1 2 2 2 ) ( f 2 2 1 2 2 2 2 1 2 1 2 1 2 1 1 1 > + Γ Γ + Γ = + − f f v v f v v v v v v f v v v v
Def. A distribuição F é a razão de duas variáveis independentes cada uma das quais distribuídas com
χ
v21 eχ
v22 . Assim(
)
1 2 2 2 2 2 1 2 ,.
2 1 2 1 2 1v
v
v
v
F
v v v v v vχ
χ
χ
χ
=
=
2 , 2 ) ( 2 2 2 > − = = v v v F E µF(
)
(
2)
( 4), 4 2 2 ) ( 2 2 2 2 1 2 1 2 2 2 > − − − + = = com v v v v v v v F Var σFDizemos que a v.a. F tem distribuição F de “Snedecor” com v graus de liberdade no 1
USO DA TABELA
α =0,05
0 fTabelado F
Ex.: Calcule o valor de fTabeladoFα(10,12) para
α
=0,05 eα
=0,01(
)
(
0,01)
30 , 4 05 , 0 75 , 2 = = = = α α Tabelado Tabelado f fObs: A tabela é unicaudal à direita e oferece a abscissa que deixa 5% ou 1% de área (probabilidade) à direita, uma vez fixados os graus de liberdade do numerador e
denominador. Para encontrarmos: 1−α
α
F1−α(v1,v2) Fα(v2,v1)
Ex: Determinar os valores fTab1 e fTab2 da distribuiçãoFα(6,11) com α =0,10
2481 , 0 03 , 4 1 1 09 , 3 ) 6 , 11 ( 05 , 0 1 2 = = = = f f f Tab Tab 0,05 2 = α 0,05 2 = α
(
2 1)
2 1 , ) , ( 11
v v v vF
F
α α=
−# INTERVALO DE CONFIANÇA PARA UM PARÂMETRO θ
Necessidade: A probabilidade de que a estimativa pontual θˆ de um parâmetro θ seja igual ao verdadeiro valor do parâmetro é muito pequena. Assim, um intervalo pode fornecer melhor informação sobre o verdadeiro parâmetroθ(médiaµ,variânciaσ2, p, σ ) .
[
θˆ1 ≤θ ≤θˆ2]
Conceito: Construir um intervalo em torno da estimativa por ponto, de modo que esse intervalo tenha uma probabilidade conhecida
(
1−α
)
a priori, de conter o verdadeiro valor do parâmetro.(
−)
= etc 98 , 0 95 , 0 90 , 0 1α
Nível de confiança →α
nível de significância (erro da afirmativa sobre o intervalo) θ Amostras 1 2 3 4 5 1001) INTERVALO DE CONFIANÇA PARA A MÉDIA POPULACIONAL
µ
a) quando a variância populacionalσ
2 é conhecida.Seja uma v.a. X de uma população X ~N
(
µ, σ2)
já foi visto que:) 1 , 0 ( ~ , ~ 2 N n X Z e n N X σ µ σ µ = −
f(z) (1−α) α 2 α 2 −zα2 0 +zα2 z Por Construção:
(
α)
α α ≤ ≤ = − − 1 2 2 Z z z P(
α)
σ µ α α ≤ − ≤ = − − 1 2 2 z n X z P(
α)
σ µ σ α α ≤ − ≤ = − − . 1 2 2 n X z n z P(
α)
σ µ σ α α ≤− ≤− + = − − − − 1 2 2 n X z n z X P(
α
)
σ
µ
σ
α α≥
≥
−
=
−
+
− −1
2 2n
X
z
n
z
X
P
(
α)
σ µ σ α α ≤ ≤ + = − − − − 1 2 2 n X z n z X P + − = ∴ − n z x n z x IC α µ α σ α σ 2 2 ) 1 ( ( ) ;INTERPRETAÇÃO: Se tomarmos 100 amostras e para cada uma delas calcularmos a média x e construirmos os intervalos IC´s, então (1−α)% desses intervalos conterão o verdadeiro valor da média populacional µ.
Exemplo: foi realizado um ensaio de corrosão de arame farpado com 64 peças de um lote de produção e verificou-se que o tempo que a peça suportou nesse teste apresentou uma média x = 200 horas. Calcular um intervalo de 95% de confiança para a verdadeira média
µ
sabendo-se que σ =16horasSolução:(1−
α
)=0,95α
=0,05 0,025 0,025 -1,96 1,96 z + − = 64 16 96 , 1 200 ; 64 16 96 , 1 200 95 IC[
h h]
IC95% = 196,08 ;203,92- Exercício: Construa um IC99% com os dados do exemplo anterior.
2) Intervalo de confiança para a média populacional
µ
quandoσ
2é desconhecidaα
µ
α α ≤ ≤ + = − − − − 1 . . 2 2 n S t X n S t X P ± = − − n S t X IC 2 ) 1 ( α (µ) αExemplo: Dado x =500, s=16 e n=25, determine o intervalo de confiança ao nível de 98%, para a média populacional.
Solução: Tabela t-Student 2,492
24 ) 1 25 ( 02 , 0 2 = → = − = = α α t gl v
± = 24 16 492 , 2 500 %) 98 ( IC = 492,03; 507,97 %) 98 ( IC
Exemplo: A seguinte amostra foi extraída de uma população normal: 6, 6, 7, 8, 9, 9, 9,10, 11, 12. Construir um intervalo para µ , ao nível de significância de 10%.
Solução: Tabela t-Student 1,833
9 ) 1 10 ( 10 , 0 2 = → = − = = α α t gl v
A partir dos dados, calcula-se x=8,7 e s2 =4
= ± 10 2 833 , 1 7 , 8 %) 98 ( IC IC(98%) = 7,51; 9,89
3) Intervalo de confiança para a variância
σ
2 de uma população normal.Onde 2 →v=n−1 v χ α 2 α 2
( )
− − = − − 2 2 1 2 2 2 2 2 1 ( ) ( 1); ( 1) α α α σ s χn sχ n ICOBS: IC para σ , é suficiente extrair a raiz quadrada:
( ) − − − 2 2 1 2 2 2 2 ( 1) , ) 1 ( α α χ χ n s n s
( )
α χ σ χα α = − − ≤ ≤ − − 1 ) 1 ( ) 1 ( 2 2 1 2 2 2 2 2 n S n S P4) Intervalo de confiança para a proporção populacional p (sucesso) α α α − ≤ ≤ + − = − − . (1 ) . (1 ) 1 2 2 n f f z f p n f f z f P − ± = − p f z f n f IC ( ) (1 ) 2 ) 1 ( α α
onde: f – freqüência relativa do evento na amostra
) 1 , 0 ( ~ N npq np X Z = −
Maior intervalo será quando
n z f 4 1 . 2 1 2 α → = Var (X) Var(X) = nf(1-f) = n(f-f2) 2 1 0 2 ) ( = − = = ∂ ∂ f nf n f X Var cqd 2 1 f
Nota: Se X: número de sucessos, X~B(n,p), E(X)=np e Var(X)=npq. Agora, seja o estimador de p dado por
n X f = . E(f)= p n np n X E = = e n pq n npq n X Var f Var( )= = 2 =
5) Intervalo de confiança para a soma (ou diferença) entre duas médias populacionais (µ1±µ2)(Quando as variâncias são conhecidas ou não).
a) Caso de variâncias conhecidas ( 2 )
2 2 1 eσ −conhecidas σ .
(
µ µ)
σ σ α σ σ α α + ≤ ± ≤ ± + + = − − ± − − − − 1 . ) ( . ) ( 2 2 2 1 2 1 2 2 1 2 1 2 2 2 1 2 1 2 2 1 n n Z X X n n Z X X P
(
)
(
)
(
)
(
)
2 2 2 1 2 1 2 1 2 1 2 2 2 1 2 1 2 1 2 1 2 2 2 2 2 1 2 1 1 1 2 1 2 2 2 2 2 1 1 1 ; ~ , ~ , ~ . , ~ , ~ n n X X Z n n N X X n N X e n N X Como tes independen X e X com N X e N X σ σ µ µ σ σ µ µ σ µ σ µ σ µ σ µ + ± − ± = + ± ± − − − −b) Caso de variâncias desconhecidas ( 2 )
2 2 1 eσ −desconhecidas σ
(
µ µ)
α α α + ≤ ± ≤ ± + + = − − ± − − − − 1 . ) ( . ) ( 2 2 2 1 2 1 2 2 1 2 1 2 2 2 1 2 1 2 2 1 n S n S t X X n S n S t X X P6) Intervalo de confiança para a diferença de duas proporções populacionais p1 e p2
(
)
α α α − + − ≤ − ≤ − + − + − = − − − ) . (1 ) (1 ) ( ) . (1 ) (1 ) 1 ( 2 2 2 1 1 1 2 2 1 2 1 2 2 2 1 1 1 2 2 1 n f f n f f z f f p p n f f n f f z f f PEXERCÍCIOS
INTERVALO DE CONFIANÇA
Ex1) Uma máquina enche pacotes de café com uma variância igual a 100 g2. Ela estava regulada para enchê-los com 500 g em média. Agora ela se desregulou, e queremos saber qual a nova média µ. Uma amostra de 25 pacotes apresentou uma média igual a 485 g. Calcule um intervalo de 99% de confiança para µ . Está essa máquina realmente desregulada? Useα =0,01
99 , 0 2 2 < < + = − − − n z X n z X P α σ µ α σ 2 25 10 58 , 2 005 , 0 2 = z =− e n = = zα σ
[
479,84;490,16]
16 , 5 485 2 58 , 2 485 005 , 0 = ± × = ± ± n z x σSim, a máquina está desregulada a 1%. Agora um IC95 nos dá:
[
481,08;488,92]
2 96 , 1 485 %) 95 ; (µ = ± × = ICNote que o IC à 95% é menor que o IC à 99%. Sim, a máquina também está desregulada a 5%.
Ex2) Uma amostra de n=500 pessoas de uma cidade foi escolhida e a cada pessoa foi feita uma pergunta a respeito da falta de água, para o qual foi apresentada uma solução pela prefeitura municipal. 300 pessoas responderam sim à pergunta. Deseja-se estimar a proporção de pessoas na cidade favoráveis à solução apresentada.
Solução: 1−α =0,95 60 , 0 ) 1 ( 96 , 1 ) 1 ( 96 , 1 = − + ≤ ≤ − − f n f f f p n f f f 500 ) 40 , 0 ( 60 , 0 96 , 1 60 , 0 500 ) 40 , 0 ( 60 , 0 96 , 1 60 , 0 − ≤ p≤ +
[
0
,
5570
;
0
,
6429
]
Ex3 Numa pesquisa de mercado, n=400 pessoas foram entrevistadas sobre novas marcas de leite. 60% destas pessoas preferiram à marca A. Calcule o maior IC95% para p. Solução: 049 , 0 60 , 0 600 . 1 1 ) 96 , 1 ( 60 , 0 ± = ±
[
0,551; 0,649]
Ex4: Segundo os fabricantes de uma marca de pilha, seu produto tem média (8 horas) e desvio padrão de vida útil de 1 hora. Uma amostra de 36 pilhas apresentou uma média de vida útil de 7,5 horas e desvio-padrão de 0,8 horas. Estimar o intervalo de confiança (95%) para
µ
eσ
e julgar se o fabricante está correto na sua afirmação. Solução n S t X 2 α ± − 0,025 2 05 , 0 2 = = αINTERPOLAÇÃO LINEAR: 30 --- 2,042 35 ? 40 --- 2,021 |40 – 30| --- |2,042 – 2,021| |35 – 30| --- x 0315 , 2 0105 , 0 042 , 2 0105 , 0 10 ) 021 , 0 ( 5 2 = − = ∴ = = tα x 36 8 , 0 0315 , 2 5 , 7 ±
[
7,2291; 7,7708]
Agora,( )
( )
− − = − − 2 2 1 2 2 2 2 2 ) 1 ( ( 1); ( 1) α α α σ S χn Sχ n IC 2 2 ; 35 2 2 ); 1 ( αχ
αχ
gl n− =Interpolação Linear : Com
α
2 =0,02530 ---- 46,979 35 ? 40 ---- 59,34 x − − − − − − − − − | 30 35 | | 979 , 46 342 , 59 | | 30 40 | 1605 , 53 1815 , 6 2 2 35 = =
χ
α gl x(
2)
352;0,975 20,569 2 1 ; 1 − = = − χ χn α − − 569 , 20 ) 1 36 ( ) 8 , 0 ( ; 1605 , 53 ) 1 36 ( ) 8 , 0 ( 2 2[
0,4213; 1,0890]
( )[
0,6490;1,0435]
) ( 2 = = ∴ICσ ICσ∴ Há indícios de que o fabricante está correto em sua afirmação quanto ao desvio padrão, mas não em relação à média.
Ex5 : Uma amostra de 150 vacas leiteiras da raça holandesa, apresentou uma produção média de 1400 L de leite e o desvio padrão de 120 L num período de lactação. Uma amostra de 100 vacas da raça GIR apresentou uma produção média de 1200 L e desvio padrão de 80 L. Determinar os limites de confiança de (a) 95%, (b) 99%, para a diferença entre as produções médias das populações das raças holandesa e gir. Solução: (a) 95% 0,025 2 = α t ( ) gl gl tn n 248 2 100 150 2 2 1 = − + − + G G H H G H n S n S t X X 2 2 2 + ± − α
( ) ( )
200 24,79 100 80 150 120 96 , 1 1200 400 . 1 − ± 2 + 2 = ± ∴ O IC(0,95) (µ1−µ2)=[175,2077 L; 224,7922 L] b) 99%( ) ( )
200 33,10 100 80 150 120 617 , 2 200 . 1 400 . 1 − ± 2 ± 2 = ±[
166,9l e 233,1l]
Ex.6) Em uma amostra aleatória de 400 adultos e 600 adolescentes que assistem ao Globo Rural, 100 adultos e 300 adolescentes declararam que o apreciam. Determinar os limites de confiança de (a) 95%; (b) (99%) para a diferença entre as proporções de todos os adolescentes e adultos que assistem ao programa e o apreciam.
Adolescentes Adultos Solução: 0,25 400 100 ˆ 5 , 0 600 300 ˆ1 = = p2 = = p (a)
[
0,19 0,31]
06 , 0 25 , 0 400 ) 75 , 0 )( 25 , 0 ( 600 ) 5 , 0 )( 5 , 0 ( 96 , 1 25 , 0 5 , 0 % 95 ), ( 1 2 e IC P P ± = + ± − = − (b)[
0,17 0,33]
08 , 0 25 , 0 400 ) 75 , 0 )( 25 , 0 ( 600 ) 5 , 0 )( 5 , 0 ( 58 , 2 25 , 0 5 , 0 % 99 ), ( 1 2 e IC P P ± = + ± − = −As duas populações são diferentes, pois o intervalo não engloba o zero.
Ex.7) Uma empresa tem 2 filiais (A e B), para as quais os desvios padrões das vendas diárias são 5 e 3 peças, respectivamente. Uma amostra de 20 dias forneceu uma venda média diária de 40 peças para a filial A e 30 peças para a filial B. Supondo que a distribuição diária de vendas seja normal, construir um IC de 92% para a venda diária das 2 filiais.
Tabela normal: 0,04 1,75 2 = z = zα 2 2 2 1 2 1 2 2 1 n n z X X− + − ± α σ +σ
(
)
20 9 20 25 75 , 1 30 40+ ± +[
67,7;72,2]
Em uma determinada progênie segregante, os indivíduos foram classificados em quatro fenótipos (A, B, C e D) com as freqüências observadas de respectivamente 103, 37, 28 e 8 indivíduos (176). As proporções esperadas pela teoria genética são 9/16, 3/16, 3/16 e 1/16, respectivamente.
Ho: As freqüências observadas concordam com as freqüências teóricas esperadas pela teoria genética.
Ha: As freqüências observadas não concordam com as freqüências teóricas esperadas pela teoria genética.
FENÓTIPO OBSERVADO ESPERADO
A 103 99 ×176 16 9 B 37 33 ×176 16 3 C 28 33 ×176 16 3 D 8 11 ×176 16 1 K = 4 classes
(
)
i i i k i calc E E O 2 1 2 . − = = χOi: Freqüência observada; Ei: Freqüência Esperada.
(
) (
) (
) (
)
2222 , 2 33 11 8 33 33 28 33 33 37 99 99 103 2 2 2 2 2 . = − + − + − + − = calc χCom 3 graus de liberdade: 2 7,8147 ) 05 , 0 ; 3 ( gl = χ
Como
χ
cal2 <χ
TAB2 não rejeitamos Ho∴ As freqüências observadas não diferem das esperadas.
∴ As freqüências observadas estão de acordo com a teoria genética.
2. TESTE QUI-QUADRADO DE INDEPENDÊNCIA
Ho: As variáveis não estão associadas Ha: As variáveis estão associadas
Num ensaio estudou-se a influência de brocas (inseto) na ocorrência de doenças na cultura da cana-de açúcar.
O número de parcelas com brocas e podridão vermelha é dado na seguinte tabela: PODRIDÃO VERMELHA Broca N S Totais 0 7 (3,7917) 0 (3.2083) 7 1 4 (3.7917) 3 (3.2083) 7 2 0 (2.7083) 5 (2.2917) 5 3 2 (2,1667) 2(1.8333) 4 4 0(0.5417) 1 (0,4583) 1 Totais 13 11 24
(
)
(
)
4 ) 1 2 )( 1 5 ( ) 1 )( 1 ( 067 , 13 4583 , 0 4583 , 0 1 7917 , 3 7917 , 3 7 2 2 2 = − − = − − = = − + + − = K I Liberdade de Graus calc χ χ(24gl;0,05) =9,488 Comoχ
calc2 >χ
TAB2 rejeita-se HoAssim, à medida que aumenta o número de brocas para parcela aumenta o número de plantas doentes.
3) TESTE QUI-QUADRADO DE HOMOGENEIDADE
Critério de classificação I Mortos II Vivos Totais Inseticida I 220 280 500 Inseticida II 395 405 800 Totais 615 685 1300
Ho: P (Vivos| Inseticida I) = P (Vivos| Inseticida II) ou P (Mortos| Inseticida I) = P (Mortos| Inseticida II)
Isto é: se, variando o inseticida, não variar o critério, é possível admitir que as variáveis Inseticidas e situação (mortos e vivos) são independentes.
Ha: P(Vivos| Inseticida I) ≠ P(Vivos| Inseticidas II) ou