• Nenhum resultado encontrado

aula4 e 5

N/A
N/A
Protected

Academic year: 2021

Share "aula4 e 5"

Copied!
32
0
0

Texto

(1)

4a. aula/5a. aula

I – Delineamento Inteiramente Aleatorizado (DIA)

1. VANTAGENS: Em relação aos outros

a) é bastante flexível, pois o número de tratamentos e de repetições depende apenas do número de parcelas disponíveis.

b) O número de repetições pode ser diferente de um nível de tratamento para outro (ideal: mesmo número de repetições – delineamentos balanceados). c) A análise estatística é simples, mesmo quando o número de repetições por

nível de tratamento é variável.

d) O número de graus de liberdade para o resíduo é o maior possível.

DESVANTAGENS:

a) exige homogeneidade total das condições experimentais, tanto do material como do ambiente.

b) pode conduzir a uma estimativa de variância residual bastante alta “já que não utiliza o princípio do controle local”.

2. MODELO MATEMÁTICO DO (DIA) E HIPÓTESES BÁSICAS PARA A ANÁLISE DE VARIÂNCIA

- Modelo: yij =µ+ti+eij i = 1, 2, ..., I j = 1, 2, ..., J onde:

ij

y - valor observado na parcela que recebeu o i-ésimo tratamento na j-ésima repetição; µ – constante inerente a toda população;

i

t - efeito do i-ésimo tratamento;

ij

e - efeito dos fatores não controlados do i-ésimo tratamento na j-ésima repetição.

- HIPÓTESES BÁSICAS PARA VALIDADE DA ANVA

a) ADITIVIDADE – os efeitos dos fatores que ocorrem no modelo matemático devem ser aditivos, isto é, ausência de interação.

b) INDEPENDÊNCIA – os erros (eij) devem ser independentes. os efeitos de tratamentos sejam independentes, que não haja correlação entre eles. Que uma parcela não influencie a outra. Isso significa que não se pode dizer, em função da

(2)

resposta obtida numa parcela, que a(s) parcela(s) vizinha (as) terá (ão) respostas mais alta(s) ou mais baixa(s), a priori.

OBS1.: Isso não ocorre quando os tratamentos são doses crescentes de proteína, fósforo, fibra, adubos, inseticidas, fungicidas, herbicidas, etc. ocasião em que a análise de variância deve ser feita estudando-se a regressão.

OBS2.: Isso também não é verdade quando medimos na mesma parcela dados ao longo do tempo.

OBS3.: O simples fato de aleatorizar (sortear) as parcelas que receberão os tratamentos diminui a dependência entre os erros.

OBS4.: O sinal dos desvios no croqui experimental pode indicar dependência dos erros eij. - - -

- - - - + + + + + + + +

c) HOMOCEDASTICIDADE ou HOMOGENEIDADE DE VARIÂNCIA - os erros ou desvios eij, devem possuir uma variância comum σ2.

i ij ij y t e = −µ− ) ( i tratamentodo média i ij ij y t e = − µ+

Isto significa que a variabilidade das repetições de um tratamento deve ser semelhante à dos outros.

d) NORMALIDADE – Os erros (e ) devem possuir uma distribuição normal de ij probabilidades. f(e ) ij ) , 0 ( NIID ~ e 2 ij σ ij e

isto implica em que as observações (yij) se ajustam a uma distribuição normal dentro de cada tratamento. Rep. T1 T2 TI 1 2 J ... 2 1 σ 2 2 σ 2 I σ

(3)

e) Não exista “outliers” (dados discrepantes).

OBS.: Na prática, é comum que uma ou mais dessas hipóteses não se verifique. deve-se transformar (yij) ou verificar se no modelo não falta algum termo, ou fazer análise não-paramétrica, ou assumir outras distribuições para os erros (ex. Exponencial, Poisson, Binomial, Gama, Beta etc.: Modelos Lineares Generalizados.

Mais comum Não existe homocedasticidade. Tipos:

a. HETEROCEDASTICIDADE IRREGULAR – ocorre quando certos tratamentos apresentam maior variabilidade que outros.

Ex.: “Substituição do soro do leite na alimentação bovina”

“pode-se esperar que a medida que se aumenta a quantidade de soro, haja maior variabilidade na resposta”. Y

Tipo Megafone

Soro

b. HETEROCEDASTICIDADE REGULAR – ocorre devido à falta de normalidade dos dados experimentais, existindo, freqüentemente, certa relação entre a média e a variância dos diversos tratamentos testados.

TESTE DE HARTLEY (1950) (TESTE DA RAZÃO MÁXIMA) – utilizado para verificação da homocedasticidade irregular

PROCEDIMENTO

:

T

1

T

2

... T

I

I -tratamentos

J J ...

J repetições

2 1 s 2 2 s

...

2 I s

variâncias

1. Calcular min s máx 2 2 s Hc =

2. COMPARAR O VALOR DE Hc COM SEU VALOR CRÍTICO H(I,J−1)α

(4)

Se Hc ≥H(I,J−1)α, rejeitamos a hipótese de homocedasticidade, e concluímos que não existe

homogeneidade de variâncias entre os tratamentos.

Obs1: Se os números de repetições forem diferentes, mas semelhantes, utilizar

Obs: Alguns sistemas computacionais utilizam a Média Harmônica do número de repetições para realizar alguns testes estatísticos.

Obs2: O teste é eficiente em detectar heterogeneidade irregular para I ≤12 e

I 2

1 J J

J = = = (Ensaios balanceados)

DESVANTAGENS:

- Não é sensível quando a estatística teste é grande devido a menor variância ser pequena, mesmo se todas outras variâncias forem a mesma. Isso é devido a instabilidade que pode ocorrer na estatística teste: Hc→∞.

- É um teste sensível a não normalidade dos dados. Se os dados não se ajustam a normal, então o teste de Hartley não é apropriado.

TESTE DE COCHRAN (1951)-possivelmente o mais útil. Usa como estatística teste a razão da maior variância pela soma das variâncias amostrais. Ele está obviamente relacionado a variância média, assim esse teste é específico para uma variância

excessivamente grande, contornando assim, uma das desvantagens do teste de Hartley.

= = I 1 i 2 i 2 i S S maior C

Com os dados em mãos, substituímos 2 i

S por 2 i

s , as estimativas da amostra para variância de I populações (ou tratamentos) amostradas. A distribuição de freqüência de C é tabulada sob H0 verdadeira e as variâncias são iguais e as populações são normalmente distribuídas. A tabela de C envolve I, o número de tratamentos ou populações e (J-1) graus de liberdade em cada amostra. Note que J deve ser o mesmo para todas as amostras.

Se o teste de Cochran é significante, há evidência de um problema potencial sério para qualquer análise subseqüente a análise da variância. Existem vários procedimentos a fazer, uma vez que a heterogeneidade de variância tenha sido identificada. É fato que a heterogeneidade de variâncias conduz a excessivo erro tipo I, na análise de amostras balanceadas, assim, resultados não significantes de uma análise podem ser perfeitamente aceitáveis. Assim, pode-se afirmar que não há diferença entre os tratamentos quando na verdade há.

SAS: LEVENE v. 6.08 (se os dados não se ajustam à distribuição normal) BROWN – FORSYTHE v. 6.12

BARTLETT (se os dados ajustam-se à distribuição normal) . I J J I 1 i= i = = = I 1 i Ji 1 I J

(5)

- CASO HETEROCEDASTICIDADE REGULAR – usar transformação normalizadora

TRANSFORMAÇÕES COMUMENTE UTILIZADAS:

a) TRANSFORMAÇÃO RAIZ QUADRADA - y - freqüentemente utilizada para dados de contagens, que geralmente seguem a distribuição de POISSON (média = variância, utilizadas também para eventos raros).

Ex.: - Número de animais sobreviventes/parcela (não confundir com co-variável). - Número de moscas das pastagens capturadas em armadilhas luminosas. - Número de vermes no intestino de ovinos.

- Número de carrapatos sobreviventes/animal.

Obs.: Se ocorrer zeros ou valores baixos, usar a transformação: 5

, 0 +

y ou y+1,0, ou de modo geral, y+ K

b) TRANSFORMAÇÃO ANGULAR – arcsen( y/100)

- Recomendável para dados expressos em porcentagens, que geralmente seguem uma distribuição binomial. De modo geral, B(n, p), então arcsen ( y / ). n

Obs1: Se as porcentagens estiverem [30% - 70%] não é preciso transformar.

Obs2: Não transformar, por transformação angular, porcentagens obtidas por divisão dos valores observados nas parcelas por um valor constante.

Ex.: Médias das parcelas

- Representativas de concentração (Teor de proteína ou gordura na carne, de N na folha, pureza da semente, etc. ) Não é uma variável com distribuição binomial. Obs3: Transformar porcentagens provenientes de dados discretos num total de casos.

Ex.: Porcentagem de germinação

sementes de total no. germinadas sementes de no.

Porcentagem de animais doentes

os considerad animais de no. doentes animais de no.

c) TRANSFORMAÇÃO LOGARÍTMICA – log (y) ou Ln (y)

- Utilizada quando é constatada certa proporcionalidade entre as médias e os desvios padrão dos diversos tratamentos.

(6)

Ex.: Caso de contagens de vermes no intestino de animais como ovinos, caprinos, bovinos: se a população é numerosa, as contagens serão altas tanto para a testemunha como para os tratamentos não eficientes (Ex.: variação de 10 a 1000 vermes), ao passo que, para os outros tratamentos, que controlam melhor o verme, a amplitude de variação será baixa (Ex.: 5 e 50 vermes). Temos médias altas, variâncias altas e médias baixas, variâncias baixas. Transformação inversa para apresentação das médias na escala original.

OBS.: y0+ 50, =yT y*0=y2T−0,5 0-Original T-Transformada

log(y0)=yT y*0=10yT SAS: − − variâncias ar homogeneiz e dados normalizar para (1964) Cox Box de Ótima Potência to Procedimen e normalidad de Teste (W) Wilks Shapiro Teste

- CASO HETEROCEDASTICIDADE IRREGULAR – deve-se eliminar os

tratamentos discrepantes ou, caso isto não seja possível ou recomendável, subdividi-los em grupos e testá-subdividi-los separadamente, através de resíduos apropriados a cada grupo.

d) TRANSFORMAÇÃO DE DADOS PARA HOMOGENEIZAR VARIÂNCIAS Consiste em encontrar alguma função f(yij) dos dados tal que o modelo

* * * )

(Yij ti eij

f =µ + + seja válido e os e ~N(0,*ij σ2), e ´s são mutuamente independentes ij*

para todo j=1,..., Ji e i=1, 2,..., I. Uma transformação apropriada pode geralmente ser encontrada se existir uma clara relação entre a variância do resíduo σi2 =Var(eij) e a resposta média E(Yij)=µ +ti , para i=1, 2,..., I. Se a variância e a média aumentam juntas, como sugerida pela forma megafone do gráfico de resíduo ou se uma aumenta enquanto a outra diminui, então a relação entre σi2 e µ +ti é frequentemente da forma:

q i i2 =k(µ+t ) σ

Em que k e q são constantes. Neste caso, a função f(yij) deve ser escolhida como:

= + = ≠ = − nulos são y uns a e q se y nulos não são y todos e q se y q se y Y f ij ij ij ij q ij ij lg 2 ) 1 ln( 2 ) ln( , 2 ) ( ) ( ) 2 / ( 1

Aqui, “ln” denota o logaritmo natural, o qual é o logaritmo na base e. Usualmente, o valor de não é conhecido, mas uma razoável aproximação pode ser obtida empiricamente como segue. Substituindo as estimativas de mínimos quadrados para os parâmetros na equação anterior o aplicando o logaritmo a ambos os lados temos:

)) (ln( ) ln( )

(7)

Dessa forma, o coeficiente de inclinação “q” da reta obtida ao por no gráfico ln(s ) contra i2

ln(y ) fornece uma estimativa para q. i

O valor de q é algumas vezes sugerido por considerações teóricas. Por exemplo, se a distribuição normal assumida no modelo é na verdade uma aproximação a distribuição Poisson, então a variância deve ser igual a média, e nesse caso q=1. A transformação raiz quadrada f(yij)=(yij)1/2 poderia ser apropriada.

3. OBTENÇÃO DA ANÁLISE DE VARIÂNCIA (DIA) Quadro 1 – Valores observados no experimento

Tratamentos Repetições 1 2 ... j ... J Totais 1 y 11 y 12 ... y1j ... y1J = = J j j T y 1 1 1 2 y21 y22 ... y2j ... y2J = = J j j T y 1 2 2 i yi1 yi2 ... yij ... yiJ = = J j ij i T y 1 I yI1 yI2 ... yIj ... yIJ = = J j Ij I T y 1 = = = J j ij I i G y 1 1

O valor observado no i-ésimo tratamento e na j-ésima repetição é

ij i ij t e y =µ+ + de onde i ij ij y t e = −µ−

Estimando os parâmetros ( µ e ti) Método dos quadrados mínimos Consiste – tornar mínima a soma de quadrados dos desvios

(8)

(

)

= = = = − µ − = I 1 i J 1 j 2 i ij I 1 i J 1 j 2 ij y t e f(µ e ti)

( )

(

)

= = − µ − = µ I 1 i J 1 j 2 i ij i y t t , f

Para minimizar, devemos derivá-la parcialmente em relação a cada um dos parâmetros µ e i

t (i=1, 2, ...,I) e igualar a zero.

( )

(

)

( )

= = = − ⋅ − µ − = µ ∂ µ ∂ I 1 i J 1 j ij i i 2 y ˆ 1 0 t , f

( )

2

(

y ˆ

)

( )

1 0 t t , f J 1 j ij i i i = µ = ∂ µ ∂ = (i=1,2,...,I) = = = = = + µ I 1 i J 1 j ij I 1 i i G y tˆ J ˆ IJ = = = + µ J 1 j ij i i y T tˆ J ˆ J (i = 1, 2, ..., I)

Sistemas de Equações Normais (I + 1) equações (I + 1) Incógnitas

O sistema é indeterminado A soma das I equações de tratamentos é igual à primeira equação, indicando que as equações não são independentes e o sistema apresenta

infinitas soluções.

Solução: Impor uma restrição

uma boa restrição será aquela que nos possibilita obter a estimativa da média independentemente do efeito de tratamentos, i.é.,

0 ˆ 1 = = I i i t G ˆ IJµ= IJ G ˆ = µ i i T tˆ J ˆ Jµ+ = = −µˆ J T tˆ i i Estimadores dos Parâmetros

(9)

CÁLCULO DAS SOMAS DE QUADRADOS

a) S.Q. Total – corresponde à soma dos quadrados dos desvios de todos os dados em relação a média.

S.Q. Total =

(

)

2 J 1 j ij I 1 i ˆ y = = µ − =

(

)

= = µ + µ − J 1 j 2 ij 2 ij I 1 i ˆ y ˆ 2 y = = = = = µ + µ − J 1 j 2 ij I 1 i J 1 j 2 ij I 1 i ˆ IJ y ˆ 2 y mas, IJ y ˆ I 1 i J 1 j ij = = = µ =

( )

2 2 I 1 i J 1 j ij J 1 j 2 I i J j ij 2 ij I 1 i IJ y IJ IJ y 2 y − + = = = = IJ y y 2 I 1 i J 1 j ij J 1 j 2 ij I 1 i − = = = = = IJ G

C= 2 correção para a média

S.Q.Total I y C i J j ij − = =1 =1 2

b) S.Q. Tratamentos (Entre) – corresponde à soma dos quadrados dos efeitos de todos os tratamentos. S.Q. Trat. = J 2 I 2 I 2 I J 2 2 2 2 2 2 J 2 1 2 1 2 1 tˆ ... tˆ tˆ tˆ ... tˆ ... tˆ tˆ ... tˆ tˆ + + + + + + + + + + + + 2 2 2 2 1 ... ˆ Jt JtI t J + + + =

(

2 2

)

2 2 1 ˆ ... ˆ ˆ t tI t J + + + = S.Q. Trat.= −µ + −µ + + −µ 2 I 2 2 2 1 ˆ J T ... ˆ J T ˆ J T J C

(10)

Desenvolvendo o quadrado, µ + µ − + + µ + µ − + µ + µ − = I 2 2 2 I 2 2 2 2 2 2 1 2 2 1 ˆ J T ˆ 2 J T ... ˆ J T ˆ 2 J T ˆ J T ˆ 2 J T J 2 I 2 I 2 2 2 2 2 1 2 1 2ˆT Jˆ J T ... ˆ J T ˆ 2 J T ˆ J T ˆ 2 J T µ + µ + µ + µ + + µ + µ =

(

)

2 I 2 1 2 I 2 2 2 1 2ˆ T T ... T I Jˆ J T ... J T J T µ ⋅ + + + + µ − + + + = mas, IJ G ˆ = µ

(

)

( )

2 2 2 2 2 2 1 ... 2 1 IJ G IJ G IJ G T T T J + + + I − ⋅ + ⋅ =

(

)

GIJ IJ G T T T J I 2 2 2 2 2 2 1 ... 2 1 + + + + = mas, C IJ G2 = S.Q. Trat. = T C J I i i − =1 2 1 .

Obs.: Se o ensaio tem diferentes números de repetições: C J T . S.Q.Trat I 1 i i 2 i = = Outra forma: S.Q. Trat.= = = −µ I 1 i J 1 j 2 i ˆ J T µ + µ − = I i J j 2 i 2 2 i ˆ ˆ J T 2 J T µˆ =G IJ µ + µ ⋅ − ⋅ = i 2 i i 2 2 i T IJˆ J ˆ 2 J J T J 2 2 i i ˆ IJ G ˆ 2 T J 1 µ + µ = C J T IJ G IJ G T J i i i i − = + − = 1 2 2 2 2 2

(11)

c) S.Q. Resíduo (Dentro) - Corresponde à soma dos efeitos dos fatores não controlados

S.Q. Resíduo = S.Q.Total - S.Q. Trat.

C T J 1 C y I 1 i 2 i I 1 i J 1 j 2 ij − − + = = = = = = = − = I 1 i 2 i I 1 i J 1 j 2 ij J T 1 y

Quadro geral da ANVA

Fonte de Variação G.L. S.Q. Q. Médio F

Tratamentos I-1 = − I i i C T J 1 2 1 1 -I Trat. S.Q. Resíduo Q.M. Trat. Q.M. Resíduo I

(

J−1

)

Diferença

( )

J-1 I síduo Re S.Q. - Total IJ −1 I y C 1 i J 1 j 2 ij− = = - -

Obs.: G.L. Total=(J1+J2+...+JI)-1, se houver desbalanceamento. Exemplo:

Produção de milho em kg/100m2 segundo as variedades (Vieira e Hoffmann, 1989)

VARIEDADES A B C D 25 31 22 33 26 25 26 29 20 28 28 31 23 27 25 34 21 24 29 28 Total 115 135 130 155 535 Média 23 27 26 31 Variância 6,5 7,5 7,5 6,5 I = 4 I×J = 20 J = 5 26,75 20 535 ˆ = = µ Efeitos de tratamentos: = A tˆ -3,75 tˆB=0,25 tˆC =-0,75 tˆD=4,25 Note: tˆA+tˆB+tˆC+tˆD =0

(12)

Modelo de simulação: y ˆ tˆ e , e* ~N(0, 2), com ˆ2 Q.M.Res. ij * ij i * ij=µ+ + σ σ = TESTE DE HARTLEY

(

) (

) (

) (

) (

)

(

5 1

)

23 21 23 23 23 20 23 26 23 25 2 2 2 2 2 2 − − + − + − + − + − = A s 5 , 6 4 26 4 4 0 9 9 4+ + + + = = =

(

) (

) (

) (

) (

)

( )

5 1 27 24 27 27 27 28 27 25 27 31 2 2 2 2 2 2 − − + − + − + − + − = B s 5 , 7 4 30 4 9 0 1 4 16+ + + + = = =

(

)

(

)

(

5 1

)

7,5 26 29 ... 26 22 2 2 2 = − − + + − = C s

(

)

(

)

(

5 1

)

6,5 31 28 ... 31 33 2 2 2 = − − + + − = D s (1) 1,1538 5 , 6 5 , 7 2 min 2 = = = s s H máx c (2) α=0,05 I = 4

( )

J−1 =4 Tabela

(3) Conclusão: Como Hc <Hcrítico , não rejeitamos a hipótese de homocedasticidade da variância e concluímos que existe homogeneidade de variâncias entre tratamentos. Exemplo da transformação estabilizadora para os dados de milho:

data T;

input V M @@; LV=log(V); LM=log(M);

lines;

6.5 23 7.5 27 7.5 26 6.5 31 ;

proc reg data=T;

model LV=LM; LV=2 run; q=1-( I J-1 2 ... 4 ... 2 4 20,60 2 i s y 6,5 23 7,5 27 7,5 26 6,5 31

(13)

Cálculo dos resíduos (eˆij) para os dados do exemplo de milho segundo as variedades VARIEDADES A B C D 2 4 -4 2 3 -2 0 -2 -3 1 2 0 0 0 -1 3 -2 -3 3 -3 Total 0 0 0 0 Média 0 0 0 0 Variância 6.5 7.5 7.5 6.5

Cálculo dos valores estimados (yˆ ) à partir do modelo DIA. ij

i

ij ˆ tˆ

yˆ =µ+

Gráfico dos resíduos

-6 -4 -2 0 2 4 6 20 22 24 26 28 30 32 Yij Estimados R es íd uo s eij

Correção para a média:

(

) ( )

14.311,25 20 535 5 4 28 ... 26 25 C 2 2 = = × + + + = kg2/100m2 Variedades A B C D 23 23 23 23 23 27 27 27 27 27 26 26 26 26 26 31 31 31 31 31

(14)

Soma de Quadrados Total:

S.Q.Total = 252+262+...+28214.311,25=275,75 kg2/100m2

Soma de Quadrados de Tratamentos:

S.Q. Trat. = 14.311,25 163,75 5 155 130 135 1152 2 2 2 = − + + + kg2/100m2

Soma de Quadrados de Resíduo:

S.Q. Resíduo = 275,75 - 163,75 = 112,0 kg2/100m2 ANVA

Fonte de Variação G.L. S.Q. Q. Médio F

Variedades 3 163,75 54,58 7,80 Resíduo 16 (112,00) 7,00 Total 19 275,75 7 ˆ2= σ ∴ TESTE F PARA A ANÁLISE DE VARIÂNCIA OBTIDO - test F (Fisher-Snedecor)

FINALIDADE - comparar estimativas de variâncias

Definição - síduo M Q Fator M Q Fc . .Re . . =

SUPOSIÇÕES - Q.M. Fator é independente Q.M. Resíduo

gl. numerador gl. denominador

Sob H : a

Q.M. Fator > Q.M. Resíduo tal F > 1 (Teste unilateral à direita) "Razão de Variâncias"

(15)

HIPÓTESES TESTADAS síduo Re . M . Q Fator . M . Q :

H0 = as I amostras foram tiradas da mesma população .

"Não há diferença entre as médias dos tratamentos" I 2 1 0:t t t H = = = síduo Re . M . Q Fator . M . Q :

Ha > as I amostras são provenientes de populações

diferentes. "Pelo menos uma das médias dos tratamentos difere das demais". . demais dos difere tratamento de efeito um menos Pelo : Ha Tabela F, α=0,05

Como FC >FTAB , rejeitamos Ho, i.é, pelo menos uma das variedades diferem entre si, ao

nível de 5% de significância. 05 , 0 = α valor-p =P(F>FC)=0,002 FTAB = 3,24 FC=7,80 Tabela F, α=0,01

Como FC >FTAB , rejeitamos Ho, i.é, pelo menos uma das variedades diferem entre si, ao

nível de 1% de significância.

COEFICIENTE DE VARIAÇÃO (C.V.) DE UM ENSAIO - é uma medida de

variabilidade que mede percentualmente a relação entre o desvio padrão residual e a média aritmética (µˆ) n1 n2 1 2 ... 3 ... 1 2 16 3,24 n1 n2 1 2 ... 3 ... 1 2 16 5,29

(16)

100 ˆ s Re QM . V . C × µ

= "Mede a precisão do ensaio"

100 75 , 26 0 , 7 . .V = × C 26,75 20 535 ˆ = = µ C.V. = 9,89%

Classificação do C.V. para ensaios de campo segundo Pimentel Gomes 1985: Baixos <10

Médios 10|--20 Altos 20|--30 Muito Altos >30

Obs. Essa classificação não é unânime, depende do tipo de ensaio ou mesmo da variável.

TRABALHO: Fazer uma revisão sobre a classificação do C.V. na sua área de pesquisa.

Outros resíduos: a) Resíduos padronizados: . Re . . ˆ s M Q e dij = ij b) Resíduos estudentizados: ij ij ij v s M Q e z − = 1 . Re . . ˆ ˆ , em que = = + = I i J j ij ij ij e e N v 1 1 2 ˆ ˆ /

1 , e N é o número de unidades experimentais ou dados

(17)

EXERCÍCIO:

Os dados que seguem referem-se a força (yij) em MegaPascal (Mpa) medida em dentes no Delineamento inteiramente aleatorizado com 7 Tratamentos ou grupos (G1, ...., G7) com 10 amostras por grupo totalizando 70 observações.

Pede-se:

1. Calcular a média, a variância, o desvio padrão e o coeficiente de variação do ensaio. 2. Calcular a média, a variância, o desvio padrão e o coeficiente de variação para cada

tratamento.

3. Calcular os desvios em relação ao modelo (eˆ ) e construir um gráfico dos resíduos ij

(eˆij × yˆij) e discutir.

4. Aplicar um teste de Homogeneidade de variâncias e verificar sua significância. 5. Fazer a análise de variância e discutir o resultado.

G1 135.60 G1 156.40 G1 116.80 G1 119.50 G1 111.90 G1 70.98 G1 108.20 G1 95.91 G1 75.62 G1 70.28 G2 77.64 G2 88.43 G2 88.75 G2 66.09 G2 74.85 G2 66.63 G2 52.91 G2 69.37 G2 79.49 G2 82.66 G3 134.40 G3 63.28 G3 60.70 G3 99.73 G3 88.83 G3 73.18 G3 133.30 G3 83.14 G3 78.90 G3 88.64 G4 62.76 G4 32.60 G4 91.01 G4 128.10

(18)

G4 62.46 G4 59.79 G4 100.00 G4 77.83 G4 81.15 G4 54.44 G5 70.42 G5 52.35 G5 61.02 G5 40.47 G5 52.89 G5 54.68 G5 62.36 G5 28.48 G5 76.11 G5 82.04 G6 62.25 G6 74.07 G6 76.67 G6 126.20 G6 46.83 G6 63.41 G6 74.52 G6 39.53 G6 42.47 G6 101.30 G7 85.83 G7 68.78 G7 123.80 G7 64.38 G7 72.11 G7 41.57 G7 61.07 G7 49.07 G7 34.11 G7 58.60

(19)

EXPERIMENTOS INTEIRAMAENTE ALEATORIZADOS COM NÚMERO DIFERENTE DE REPETIÇÕES

Considere o caso de ensaios em que, por algum motivo, não se dispõe de igual número de parcelas para todos os tratamentos. Pode ter ocorrido uma doença ou praga ou contaminação, destruindo toda a parcela ou não existir material suficiente para se ter o mesmo número de repetições em todos os tratamentos. É comum, também, considerar como parcelas perdidas valores discrepantes (“outliers”).

Do ponto de vista de cálculo, as parcelas perdidas pouco alteram a elaboração de uma análise de variância, no D.I.A. Porém a cada parcela perdida diminui-se 1 g.l. no Total e, conseqüentemente , no resíduo também. Assim, g.l. Total= I×J-1-p e g.l. Res.=I(J-1)-p, em que p é o número de parcelas ausentes. Ensaios desbalanceados.

Modelo Matemático e Esquema de Análise

O modelo matemático é o mesmo apresentado para o caso onde não há perda de parcela, ou seja, ij i ij t e y =µ+ + em que,

i=1,2,...,I; j=1,2,…,Ji (número de repetições para o tratamento i). ANVA

Fonte de variação G.L. Tratamento

Resíduo I-1 N-I

Total N-1 Em que N= = I 1 i i J Exemplo:

Considere os dados de enraizamento de estacas, já transformados em y+0,5 (Décio, 2003)

Repetições

Tratamentos 1 2 3 4 5 Totais Médias #Rep./Trat. Médias Obtidas Transformação

Inversa A B C D 1,58 1,22 3,53 2,74 1,58 0,71 3,24 3,08 1,22 0,71 3,81 3,94 · 1,22 · 2,91 0,71 1,22 · 3,24 5,09 5,08 10,58 15,91 1,272 1,016 3,527 3,182 JA=4 JB=5 JC=3 JD=5 1,1179 0,5322 11,9397 9,6251 36,66 2,156 Análise da variância Fonte de Variação G.L. S.Q. Q.M. F Tratamentos Resíduo 3 13 20,5198 1,8406 6,8399 0,1416 48,30** - Total 16 22,3604 - -

(20)

Soma de quadrados: C y Total . Q . S I 1 i J 1 j 2 ij i − = = = S.Q.Total=(1,58)2+...+(3,24)2 -17 ) 60 , 36 ( 2 =22,3604 S.Q.Trat.= T C J 1 2 i I 1 i i − = (10,58) C 3 1 ] ) 91 , 15 ( ) 08 , 5 [( 5 1 ) 09 , 5 ( 4 1 2+ 2+ 2 + 2 = =20,5198 S.Q.Resíduo=S.Q.Total-S.Q.Trat.=22,3604-20,5198=1,8406 Quadrados Médios: Q.M.Trat.= 6,8399 3 5198 , 20 . Trat .l . g . Trat . Q . S = = Q.M. Resíduo= 0,1416 13 8406 , 1 . s Re .l . g síduo Re . Q . S = = F= 48,30 1416 , 0 8399 , 6 . s Re . M . Q . Trat . M . Q = = Ftab %) 1 ( 74 , 5 %) 5 ( 41 , 3 13 n 3 n 2 1 = = C.V.= 100 16,45% 156 , 2 1416 , 0 100 ˆ síduo Re . M . Q × = × = µ

(21)

ANÁLISE DE VARIÂNCIA NÃO-PARAMÉTRICA NO DIA (I AMOSTRAS INDEPENDENTES)

Humberto de Campos/Montgomery A estatística não-paramétrica nos permite estruturar testes que, trabalhando com as ordens (rank) das observações, constituem os diretos competidores das análises de variâncias do campo paramétrico.

Não muito raro, devido as exigências do modelo matemático dos delineamentos estatísticos no campo paramétrico (normalidade, homogeneidade das variâncias de tratamentos, independência dos erros, não existência de “outliers”) seus competidores apresentam maior poder, permitindo, nestes casos, a obtenção de conclusões mais acuradas. Teste de Kruskal-Wallis

Esse teste foi introduzido em 1952, como um competidor ou substituto ou uma alternativa do teste F do campo paramétrico.

Finalidade: averiguar se I amostras independentes são provenientes de uma mesma população ou de populações idênticas, ou provêm de populações distintas.

Quando se consideram apenas duas amostras independentes (I=2) ele corresponde ao teste bilateral de Wilcoxon. Para mais de duas amostras (I>2) podemos considerá-lo como uma extensão daquele teste.

Admitindo-se I tratamentos, o teste nos permite averiguar se há diferença entre pelo menos dois deles; é, pois um teste de “posição” para I amostras independentes.

Pressuposições:

Kruskal e Wallis (1952) apresentam apenas pressuposições gerais a respeito do tipo de distribuição das observações, ou seja:

a. As observações são todas independentes;

b. Dentro de uma amostra, todas as observações são provenientes da mesma população;

c. As I populações são aproximadamente da mesma forma e contínuas. Testes livres de distribuição.

Hipóteses:

De acordo com a estrutura do teste, podemos considerar:

H0: t1=t2=...=tI (O que corresponde a dizer que todos os tratamentos são iguais e provenientes de uma única população)

Ha: pelo menos dois tratamentos diferem entre si. Método:

Procedemos a classificação conjunta das N=

= I 1

i i

J observações, dando ordem 1 à menor delas e ordem N à maior. Ex.

Definimos a estatística: ) 1 N ( 3 J R ) 1 N ( N 12 H I 1 i i 2 i + + = = ,

(22)

em que Ri é a soma das ordens atribuídas ao tratamento i, Ji é o número de repetições do tratamento i.

Para testarmos, ao nível α de significância, H0 vs Ha, rejeitamos H0 se H≥ h, em que

P(H≥ h)= α

A Tabela 14 de Campos (1979) nos dá os limites de h para Ji≤ 6 e I=3. Cumpre observar que:

a. Para I=2 empregamos o teste bilateral de Wilcoxon;

b. À medida que Ji crescem, a distribuição nula de H tende à distribuição de χ , com 2

(I-1) g.l. Portanto, para Ji>6 aplicamos a aproximação do teste qui-quadrado.

c. Para I>3, aplica-se também a aproximação qui-quadrado, com (I-1) g.l., isto é consultamos o nível de significância, para o valor de H calculado numa, tabela comum de qui-quadrado.

Empates:

No caso de ocorrerem empates entre duas ou mais observações, procede-se ao desempate, considerando, para cada observação no grupo empatado, a média das ordens que seriam atribuídas a elas se não houvesse o empate. O valor de H é afetado da seguinte correção: N N T 1 C 3 g 1 i i − − = = = .i grupo no empatadas s observaçõe de número o é : t t t T empates de grupos de número o é : g i i 3 i i

A estatística teste fica:

C H H1=

Cumpre observar que, obtido H1, procede-se como usual, ou seja:

a. Para grandes amostras, ou seja, I>3, H1 também tem uma distribuição aproximada de qui-quadrado com I-1 graus de liberdade;

b. Para I=3 e Ji≤ 6 os níveis de significância da Tabela 14, quando aplicados a H1, são apenas aproximados.

Ex: Dia, I=3, J=4, N=12

t1= T1= t2= T2= g= C= H= H1= T1 T2 T3 2,7 1,8 3,1 2,7 3,5 3,7 3,2 4,5 3,5 4,6 2,7 3,6 R1 R2 R3

(23)

Exemplo1:

Campos (1977), cita uma pesquisa realizada sobre “Influência do Tamanho do Disco na Aração”, em que foram testados três diâmetros distintos, ou sejam: D1=26cm; D2=28cm; D3=30cm. Os resultados parciais de “esforço de tração”, em kgf, para um solo argiloso foram:

Médias: YD1=2097,54 YD2=1782,76; Y D3=1798,025 Variâncias: 2 13360,838 1 = D s 908 , 190941 2 2 = D s 4425 , 1538 2 1 = D s ; Relação:124

Houve diferença de comportamento dos tamanhos dos diferentes discos, quanto ao esforço de tração?

Solução:

Aplicando o teste de Kruskal-Wallis com as seguintes hipóteses: H0:t1=t2=t3

Ha: pelo menos dois tratamentos diferem entre si.

Procedemos à classificação conjunta das 14 observações e desde que não houve empates, atribuímos ordens de 1 a 14 da menor para a maior, obtemos: R1=54; R2=33 e R3=18. Conseqüentemente: 400 , 5 ) 15 ( 3 4 ) 18 ( 5 ) 33 ( 5 ) 54 ( ) 15 ( 14 12 H= 2+ 2 + 2 − =

Considerando J1=4; J2=J3=5 e α =0,05, a Tabela 14 nos dá: h=5,643. desde que obteve-se H=5,400, aceitamos H0, isto é, os tratamentos, ao nível considerado, não diferem entre si. O n.m.s. seria α =0,075.

Exemplo2:

Campos (1977), cita exemplo (fictício) Gomes (1973) sobre alimentação de suínos, em que se usaram quatro rações (A, B, C, D), cada uma fornecida a cinco animais, escolhidos aleatoriamente de um total de 20 animais disponíveis para a pesquisa. Os aumentos de peso observados em kg foram:

A B C D 35 (14,5) 19 (4) 31 (12) 15 (3) 30 (10,5) 40 (17) 35 (14,5) 46 (20) 41 (18) 33 (13) 39 (16) 27 (6,5) 20 (5) 29 (9) 45 (19) 27 (6,5) 12 (1) 13 (2) 28 (8) 30 (10,5) RA=44 RB=82,5 RC=55,5 RD=28

Houve diferença no comportamento das quatro rações, quanto ao ganho de peso?

D1 D2 D3 2212,8 (13) 2025,3 (9) 1989,0 (8) 2232,8 (14) 2027,8 (10) 2195,2 (12) 2031,5 (11) 1876,5 (7) 1750,3 (2) 1060,3 (1) 1770,3 (4) 1800,0 (5) 1852,8 (6) 1769,0 (3) R1=54 R2=33 R3=18

(24)

Solução:

Os números entre parênteses representam as ordens das observações na classificação conjunta. Então temos: R1=44,0; R2=82,5; R3=55,5; R4=28,0 e,

) 21 ( 3 5 ) 0 , 28 ( 5 ) 5 , 55 ( 5 ) 5 , 82 ( 5 ) 0 , 44 ( ) 21 ( 20 12 H= 2 + 2+ 2+ 2 − =9,037

Como houve empates, procedemos ao cálculo da correção C, ou seja:

6 t t T 2 t 6 t t T 2 t 6 t t T 2 t 3 3 3 3 3 2 3 2 2 2 1 3 1 1 1 = − = = = − = = = − = = g=3 C= 0,9977 980 . 7 18 1 N N T 1 3 3 1 i i = = − − = 058 , 9 9977 , 0 037 , 9 C H H1= = =

Pela Tabela 14, ao nível α=0,05 temos: 2 7,815

) 3

( =

χ

Assim, H1 é significativo ao nível de 5% de probabilidade. O n.m.s. no qual rejeitaríamos H0 seria α≈0,03(ver Tabela qui-quadrado com 3 g.l.).

Por outro lado, o autor aplicando o teste F encontrou F=3,993, também significativo ao nível de 5% de probabilidade. Neste caso, o n.m.s. é de aproximadamente 4%. Observa-se uma excelente concordância de resultados pelos dois testes.

Exercício: Num experimento sobre a eficiência de inseticidas no feijoeiro, foram obtidos os seguintes resultados de produção (em kg/ha):

Testemunha t1 Ekatin t2 Diazinon t3 EPN t4 1451 1534 1493 1285 5763 1441 1451 1575 1534 1493 6053 1513 1368 1534 1534 1534 5970 1492 1534 1658 1700 1700 6592 1648

Verifique, pelo teste de Kruskal-Wallis, se houve diferenças entre os tratamentos.

Obs.: Se aplicarmos o teste F aos postos ao invés dos dados originais obtém-se a relação: 1) H)/(N 1 (N 1) H(I F0 − − − −

= , como estatística teste, Conover (1980), p.337. Nota-se que se H aumenta/diminui, F0 também aumenta/diminui. Assim, o teste de Kruskal-Wallis é equivalente aplicar a ANVA usual aos postos.

(25)

ANÁLISE MULTIVARIADA DE DADOS EXPERIMENTAIS

Seja o modelo p n p 1 k n p X B E Y = + + n = ⊗ = )) ( vec ( Var I ) ( Var ) ( E Y Y XB Y onde:

Y - contém n observações aleatórias sobre p variáveis dependentes B - matriz de parâmetros desconhecidos

E - matriz de erros aleatórios tais que cada linha de E é um vetor normal p-variado com vetor de média zero e matriz de covariância

p p . - é assumida positiva definida.

X - matriz de delineamento, de zeros e uns. Posto (X) = r< k+1

A solução das equações normais X’XB=X’Y não é única. A solução de mínimos quadrados é dada por:

( )

( )

XX XY

Bˆ g =

que depende de uma particular escolha da inversa generalizada. Como resultado, a matriz B não é unicamente estimável.

(26)

Ex.:

Tratamentos VAR1 VAR2 ... VARp

1 y 111 121 y 1 1J1 y 112 y 122 y 2 1J1 y ... ... ... p y11 p y12 p J y11 2 y 211 221 y 1 2J2 y 212 y 222 y 2 2J2 y ... ... ... p y21 p y22 p J y22 ... ... ... I y I11 21 I y 1 IJI y 12 I y 22 I y 2 IJI y ... ... ... p I y1 p I y2 p IJI y Observação genérica: y iji i = 1, 2, ..., I (tratamento)

ji = 1, 2, ..., Ji (no. de amostras no i-ésimo tratamento)

= 1, 2, ..., p (variáveis)

Seja

( )p×ij1

Y um vetor de observações no i-ésimo tratamento e ji-ésima amostra.

= = i i J j I i ,..., 2 , 1 ,..., 2 , 1 = p y y y 11 112 111 11 Y Assumindo que + + + p p ip p i i p p ij ~N , 1 2 2 1 1 τ µ τ µ τ µ Y onde

(27)

- é a matriz de covariâncias de p observações subamostrais. ip

τ - é o efeito do i-ésimo tratamento na p-ésima variável.

O modelo fica: i ij i i ij e y =µ +τ +

(

yiji1,yiji2,...,yijip

)

=

(

µ+τi1,µ+τi2,...,µ+τip

)

+

(

εiji1,εiji2,...,εijip

)

= = i i J j I i ,..., 2 , 1 ,..., 2 , 1 Assim, p IJI 1 I 2 J 2 21 1 J 1 11 n p IP 2 I 1 I p 2 22 21 p 1 12 11 p 2 1 1 I 1 I n p IJ 1 I J 2 21 J 1 11 n 1 0 0 1 1 0 0 1 0 1 0 1 0 1 0 1 0 0 1 1 0 0 1 1 I 2 1 ′ ′ − − − − − − ′ ′ − − − ′ ′ + τ τ τ τ τ τ τ τ τ µ µ µ ⋅ − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − − = ′ ′ − − − − − − ′ ′ − − − ′ ′ + = y y y y y y = = I i i J n 1 onde = ij εεεε 1 2 1 p ij ij ij p i i i ε ε ε

(28)

Exemplo:

Considere as seguintes amostras independentes com 2 variáveis.

3 . 2 . 1 . Pop Pop Pop 7 2 9 1 8 3 0 2 4 0 7 9 2 6 3 9 = 4 8 1 x = 2 1 2 x = 8 2 3 x = 5 4 x Para a 1a. variável: 3 . 2 . 1 . Pop Pop Pop − − − + − − − − − + = 0 1 1 1 1 1 2 1 2 2 2 3 3 4 4 4 4 4 4 4 4 4 4 4 2 1 3 2 0 9 6 9 = = + − + − 3 1 ) 2 ( 3 ) 3 ( 2 ) 4 ( 3 ˆ e e e nτ 12 – 6 – 6 = 0 res trat média obs SQ SQ SQ SQ = + + 216 = 128 + 78 + 10 média obs corrigida total SQ SQ SQ ( ) = − = 216 – 128 = 88 Para a 2a. variável:

Os tamanhos amostrais são n1 = 3, n2 = 2 e n3 = 3

Os pares de observação xej estão arranjados em colunas

ej

x x xex xejxe

observação Média

(29)

3 . 2 . 1 . Pop Pop Pop − − − − + − − − − − + = 1 1 0 2 2 3 2 1 3 3 3 3 3 1 1 1 5 5 5 5 5 5 5 5 7 9 8 0 4 7 2 3 = + − + − = 3 1 ) 3 ( 3 ) 3 ( 2 ) 1 ( 3 ˆ e e e nτ res trat média obs SQ SQ SQ SQ = + + 272 = 200 + 48 + 24

para as 2 variáveis conjuntamente: produtos cruzados Média: 4(5) + 4(5) + ... + 4(5) = 8 × 4(5) = 160

Tratamento: 3 ×4(−1) + 2 × (−3)(−3) + 3 × (−2)(3) = −12 Resíduo: 1(−1) + (−2)( −2) + 1(3) + (−1)2 + ....+ 0(−1) = 1 Total: 9(3) + 6(2) + 9(7) + 0(4) + ... + 2(7) = 149

PRODUTO CRUZADO TOTALCORRIGIDO = PC TOTAL – PCMÉDIA = 149 – 160

= −11

Fonte de

Variação Matriz de soma de quadrados e produtos cruzados Graus de liberdade Tratramentos − − 48 12 12 78 B 3 – 1 = 2 g – 1 Resíduo 24 1 1 10 W 8 – 3 = 5 g n g e e − =1 Totalcorrigido − − 72 11 11 88 8 – 1 = 7 1 1 − = g e e n

observação Média

Efeito de

tratamento

(30)

TESTE DE HIPÓTESE 0385 , 0 215 , 6 239 ) 11 ( ) 72 ( 88 ) 1 ( ) 24 ( 10 72 11 11 88 24 1 1 10 2 2 * = = − − − = − − = + = Λ W B W (Wilks)

Com p = 2 variáveis e g = 3 pop., um teste exato (assumindo normalidade e matrizes de covariâncias iguais 1 = 2 = 3 * exercício

de H0:ττττ1=ττττ2 =ττττ3=0 :

1

H pelo menos um ττττe0 está disponível

ESTATÍSTICA DO TESTE

(

)

(

)

calc e F g g n = = − − − − = − − − Λ Λ − 8,19 1 3 1 3 8 0385 , 0 0385 , 0 1 1 1 1 * * ( )1;2( 1) 4;8(0,01) 7,01 2 − − − =F = F g n g e

Como Fcalc >F4;8;0,01 , rejeitamos H ao nível de 0,01 e concluímos que existe diferenças 0

de tratamentos. Dados: n1 = 3, n2 = 2 e n3 = 3 3 8 1 = = e e n = 7 3 3 3 1 S − − = 8 4 4 2 2 S − − = 1 5 , 0 5 , 0 1 3 S = 4 8 1 x = 2 1 2 x = 8 2 3 x Podemos obter: = + + + + = 5 4 3 2 1 3 3 2 2 1 1 n n n x n x n nx x

(31)

(

)

+

(

)

+

(

)

= + + = = 24 1 1 10 2 1 2 1 1 1 1 2 2 3 3 1 2 3 1 S n S n S S S S n W

(

)(

)

+ − − ′ ′ − − = ′ − − = = 5 4 2 1 5 4 2 1 2 5 4 4 8 5 4 4 8 3 1 x x n B e g e e e x x ′ − − + 5 4 8 2 5 4 8 2 3

(32)

1 2 1 2 3 1 2 3 4 1 2 3 4 5 É suficiente saber o número de dados N Total 3 6 10 15 N(N+1)/2 Média 1,5 2 2,5 3 (N+1)/2 Variância 0,5 1 1,6666 2,5 N(N+1)/12

Referências

Documentos relacionados

Através do experimento in vivo, verificou-se que o pó nebulizado de nanocápsulas (Neb-NC) é efetivo na proteção da mucosa gastrintestinal frente à indometacina, enquanto que os

As pontas de contato retas e retificadas em paralelo ajustam o micrômetro mais rápida e precisamente do que as pontas de contato esféricas encontradas em micrômetros disponíveis

Para os corpos de prova revestidos com tinta aditivada com as microcápsulas, os resultados mostraram uma densidade de corrente anódica de aproximadamente 2200 μA/cm2 após 1 h em

A determinação da variação dimensional de barras de argamassa, conforme a NBR 13.583, foi utilizada para avaliar o potencial de mitigação do material ligante composto por cimento CP

5.2 Importante, então, salientar que a Egrégia Comissão Disciplinar, por maioria, considerou pela aplicação de penalidade disciplinar em desfavor do supramencionado Chefe

[r]

Este desafio nos exige uma nova postura frente às questões ambientais, significa tomar o meio ambiente como problema pedagógico, como práxis unificadora que favoreça

O primeiro passo para introduzir o MTT como procedimento para mudança do comportamento alimentar consiste no profissional psicoeducar o paciente a todo o processo,