• Nenhum resultado encontrado

Análise de experimentos fatoriais em parcelas subdivididas sem réplicas com observações faltantes

N/A
N/A
Protected

Academic year: 2021

Share "Análise de experimentos fatoriais em parcelas subdivididas sem réplicas com observações faltantes"

Copied!
117
0
0

Texto

(1)

Análise de Experimentos Fatoriais em Parcelas

Subdivididas sem Réplicas com Observações

Faltantes

Natal - RN

Dezembro de 2017

(2)

Análise de Experimentos Fatoriais em Parcelas

Subdivididas sem Réplicas com Observações Faltantes

Monografia de Graduação apresentada ao De-partamento de Estatística do Centro de Ci-ências Exatas e da Terra da Universidade Federal do Rio Grande do Norte como re-quisito parcial para a obtenção do grau de Bacharel em Estatística.

Universidade Federal do Rio Grande do Norte Centro de Ciências Exatas e da Terra

Departamento de Estatística

Orientador: Prof

a

. Dra. Carla Almeida Vivacqua

Natal - RN

Dezembro de 2017

(3)

Barbosa, Taynná Antunes Figueiredo.

Análise de experimentos fatoriais em parcelas subdivididas sem réplicas com observações faltantes / Taynná Antunes Figueiredo Barbosa. - 2017.

115f.: il.

Monografia (graduação) - Universidade Federal do Rio Grande do Norte. Centro de Ciências Exatas e da Terra. Departamento de Estatística. Natal, RN, 2017.

Orientador: Carla Almeida Vivacqua.

1. Estatística - Monografia. 2. Coons - Monografia. 3. Dados faltantes - Monografia. 4. Haseman e Gaylor - Monografia. 5. Métodos de estimação - Monografia. 6. Split-plot - Monografia. 7. Taxa de erro individual - Monografia. I. Vivacqua, Carla Almeida. II. Título.

RN/UF/CCET CDU 519.2

(4)
(5)

Aos meus pais, Andréia Antunes e Sandro Barbosa, por me incentivarem, motiva-rem e por todo apoio que me dão.

Ao meu noivo João Rodrigues, por todo amor, dedicação e paciência que fizeram desses quatros anos os melhores possíveis, mesmo com toda distância e dificuldades pelas quais passamos.

Aos colegas de turma que se tornaram amigos, Antony, Ruanderson, Rodrigo M., Rodrigo A., Isabelle, Rayane e Adryan, por todas as risadas, incentivos e companheirismo. À professora Carla Vivacqua, por toda dedicação, disponibilidade e atenção ao me orientar neste trabalho.

Ao Professores André Pinho e Damião Nóbrega por aceitarem fazer parte da banca, fazendo sugestões para que meu trabalho seja o melhor possível.

(6)

Agradeço ao Senhor meu Deus por toda força que recebi ao longo desses quatro anos. Foram anos difícieis, de muitas mudanças em minha vida, muitos distanciamentos e muitas batalhas. Dificuldades estas, as quais não passei sozinha, em todos estes momentos houve pessoas me apoiando, incentivando, amando e me esperando. Meus Pais, meu Noivo, meus Amigos e Professores, são essas as pessoas as quais me refiro, pessoas que Deus colocou em minha vida com o propósito de só acrescentar coisas boas, pessoas a quem digo agora muito obrigada!

(7)
(8)

Observações faltantes é um tema de grande importância no campo de análise de experimen-tos, pois se tratadas de forma indevida podem afetar a análise. Neste trabalho são estudados três métodos de estimação de observações faltantes: Os métodos de Coons, de Rubin e de Haseman e Gaylor. Um estudo de simulação é realizado de forma que observações faltantes são estimadas por todos os métodos em dados simulados para um experimento em parcelas subdivididas 23× 2 sem réplicas. Nove cenários são executados para cada método, em que são analisados diferentes níveis dos fatores posição das observações faltantes, variância da parcela e quantidade de efeitos ativos, com o objetivo de determinar as condições para posições das observações faltantes, variância do erro associado à parcela, quantidade de efeitos ativos associados à parcela e à subparcela e magnitude dos efeitos. Os resultados de interesse são: Erro médio da estimação, desvio-padrão do erro médio da estimação, média dos efeitos, variância dos efeitos e desempenho quanto a identificação correta de efeitos ativos e inativos. Para analisar o desempenho são considerados o poder, a taxa de erro individual (IER) e a taxa de erro simulatânea (EER). Dentre os métodos estudados, o método que se destaca com melhores resultados é o método de Rubin, uma vez que o método de Coons apresenta uma restrição para uma posição de observação faltante e o método de Haseman e Gaylor demonstrou ser afetado pelos três fatores considerados mais do que nos outros métodos.

Palavras-chave: Coons. Dados Faltantes. Haseman e Gaylor. Métodos de estimação.

(9)

Missing data is a topic of great importance in the analysis of experiments, because if the problem is treated improperly it can affect the analysis. In this work, three methods of estimation of missing observations are studied: The methods of Coons method, Rubin and Haseman and Gaylor. A simulation study is performed so that missing observations are estimated by all methods in simulated data for an experiment in split-plot 23 × 2 without replication. Nine scenarios are executed for each method, in which different levels of the factors are analyzed: Position of missing observations, plot variance and amount of active effects, with the objective of determining the conditions for positions of the missing observations, variance of the error associated to the plot, amount of active effects associated to the plot and to the subplot and magnitude of the effects. The results of interest are: Mean error of the estimation, standard deviation of the mean error of the estimation, mean of the effects, variance of the effects and performance as the correct identification of active and inactive effects. To analyze the performance are considered the power, the individual error rate (IER) and the experimentwise error rate (EER). Among the methods studied, the method that stands out with better results is the Rubin method, since the Coons method presents a restriction to a missing observation position and the Haseman and Gaylor method has been affected by the three factors considered than in other methods.

Keywords: Coons. Haseman and Gaylor. Individual error rate. Methods of estimation.

(10)
(11)

Tabela 1 – Análise de Variância do split-plot . . . . 19

Tabela 2 – Análise de Covariância . . . 20

Tabela 3 – Split-plot 23× 2 . . . 27

Tabela 4 – Erros . . . 28

Tabela 5 – Análise de Covariância (split-plot 23× 2) . . . . 30

Tabela 6 – Cenários Simulação . . . 34

Tabela 7 – Variâncias dos Efeitos . . . 35

Tabela 8 – Cenários para verificação de desempenho . . . 39

Tabela 9 – Erro médio da Estimação - Cenário 1 . . . 41

Tabela 10 – Erro médio da Estimação - Cenário 5 . . . 41

Tabela 11 – Erro médio da Estimação - Cenário 9 . . . 42

Tabela 12 – Desvio-padrão do Erro da Estimação - Cenário 4 . . . 44

Tabela 13 – Desvio-Padrão do Erro Total - Cenário 4 . . . 45

Tabela 14 – Desvio-padrão do Erro da Estimação - Cenário 7 . . . 46

Tabela 15 – Desvio-Padrão do Erro Total - Cenário 7 . . . 46

Tabela 16 – Média dos Efeitos da Parcela - Cenário 2 . . . 47

Tabela 17 – Média dos Efeitos da Subparcela - Cenário 2 . . . 47

Tabela 18 – Média dos Efeitos da Parcela - Cenário 6 . . . 48

Tabela 19 – Média dos Efeitos da Subparcela - Cenário 6 . . . 48

Tabela 20 – Média dos Efeitos da Parcela - Cenário 7 . . . 48

Tabela 21 – Média dos Efeitos da Subparcela - Cenário 7 . . . 48

Tabela 22 – Variância Parcela - Cenário 5 . . . 49

Tabela 23 – Variância Subparcela - Cenário 5 . . . 50

Tabela 24 – Variância Parcela - Cenário 8 . . . 50

Tabela 25 – Variância Subparcela - Cenário 8 . . . 50

Tabela 26 – Porcentagem de acertos na parcela (ef eitos > SM E) . . . . 51

Tabela 27 – Porcentagem de acertos na subparcela (ef eitos > SM E) . . . . 51

Tabela 28 – Porcentagem de acertos completo (ef eitos > SM E) . . . 51

Tabela 29 – Porcentagem de acertos completo (ef eitos > SM E) - Continuação . . 52

Tabela 30 – Porcentagem de acertos parcela (ef eitos > M E) . . . 52

Tabela 31 – Porcentagem de acertos subparcela (ef eitos > M E) . . . 52

Tabela 32 – Porcentagem de acertos completo (ef eitos > M E) . . . 52

Tabela 33 – Porcentagem de acertos completo (ef eitos > M E) . . . 53

Tabela 34 – Porcentagem de Erros (IER) - Tabelas 26 e 27 . . . 53

(12)

Tabela 37 – Porcentagem de Erros (IER) - Tabela 32 . . . 54 Tabela 38 – Porcentagem de acertos simultâneos (100-EER) (ef eitos > SM E) . . . 54 Tabela 39 – Porcentagem de acertos simultâneos (100-EER) (ef eitos > M E) . . . 55 Tabela 40 – Porcentagem de acertos efeitos ativos parcela (ef eitos > SM E) . . . . 55 Tabela 41 – Porcentagem de acertos parcela (ef eitos > M E) . . . 56

(13)

Lista de ilustrações . . . 10

Lista de tabelas . . . 11

1 INTRODUÇÃO . . . 15

1.1 Objetivos . . . 16

1.2 Desenvolvimento dos capítulos . . . 16

2 REVISÃO CONCEITUAL . . . 18

2.1 Experimento em Parcelas Subdivididas . . . 18

2.2 Análise de Covariância - ANCOVA . . . 19

2.3 Método de Lenth . . . 20

3 MÉTODOS DE ESTIMAÇÃO DE DADOS FALTANTES . . . 22

3.1 Método de Coons . . . 22

3.2 Método de Haseman e Gaylor . . . 24

3.3 Método de Rubin . . . 25

4 METODOLOGIA . . . 26

4.1 Plano Experimental . . . 26

4.1.1 Método de Coons . . . 30

4.1.2 Método de Haseman e Gaylor . . . 31

4.1.3 Método de Rubin . . . 32

4.2 Simulação . . . 33

4.2.1 Obtenção dos dados . . . 35

4.2.2 Análise dos Dados . . . 37

5 RESULTADOS . . . 40

5.1 Erro Médio da Estimação . . . 40

5.2 Desvio Padrão do Erro da Estimação . . . 44

5.3 Média dos Efeitos . . . 47

5.4 Variância dos Efeitos . . . 49

5.5 Poder, IER e EER . . . 51

6 CONSIDERAÇÕES FINAIS . . . 57

(14)

APÊNDICES

61

APÊNDICE A – SCRIPT: MÉTODO DE COONS . . . 62 APÊNDICE B – SCRIPT: MÉTODO DE RUBIN . . . 80 APÊNDICE C – SCRIPT: MÉTODO DE HASEMAN E GAYLOR . 84 APÊNDICE D – SCRIPT: GERAÇÃO DOS DADOS . . . 97 APÊNDICE E – SCRIPT: ANÁLISE DOS DADOS . . . 101

(15)

1 Introdução

Experimentos consistem em técnicas que objetivam verificar a influência de fatores em uma variável resposta, de maneira que ao manipulá-los a resposta se aproxime do que se deseja. Ao planejar um experimento se estabelece previamente quais são os fatores sob análise bem como seus repectivos níveis.

Para que a análise dos resultados obtidos seja possível, além da necessidade de um planejamento correto há também a necessidade de uma fase intermediária: Uma execução correta do experimento. Esta fase pode ser prejudicada em decorrência de vários problemas, como por exemplo a necessidade de mais recursos financeiros, tempo insuficiente disponível, a inoperância repentina de algum instrumento ou até falta de mão de obra qualificada para tal execução. Problemas como estes podem levar a obtenção de dados incompletos, ou seja, quando não se consegue obter todas as observações como planejado inicialmente. Observações faltantes podem ser inevitáveis em alguns casos e afetam diretamente a fase da análise. Nesta estapa são determinados quais fatores têm efeito ativo e quais níveis destes fatores fornecem respostas mais próximas do desejado. Assim, quando não se tem uma observação o efeito do respectivo tratamento será subestimado, acarretando em uma análise equivocada dos dados. Por este motivo, vários estudos acerca do tema têm sido desenvolvidos, alguns dos mais recentes são Oliveira (2017), Xampeny, Grima e Tort-Martorell (2017), Siddiqui e Yang (2010), Ahmed e Region-Iraq (2009) e Acharya e Nembhard (2009).

De forma a tentar minimizar os danos causados por dados faltantes, vários autores desenvolveram métodos de estimação de tais observações ao longo dos anos. Coons (1957) propôs um método de estimação que utiliza em seus cálculos coeficientes de regressão obtidos por meio de Soma de quadrados e Soma de produtos entre covariáveis e a variável resposta. Haseman e Gaylor (1973) propuseram uma extensão do método proposto por Yates (1933), o método é utilizado em experimentos em que ocorre classificação cruzada em mais de dois fatores, em que é necessário a resolução de equações simultâneas. Rubin (1972) propôs um método de fácil implementação computacional cuja estimativa se baseia

em resíduos obtidos por meio da Análise de Variância dos dados.

Os métodos de estimação de observações faltantes são em geral bem abrangentes quanto aos planos experimentais aos quais podem ser aplicados. De acordo com Daniel (2008), ao planejar um experimento encontram-se dificuldades na aleatorização em muitos casos, por exemplo, um experimento em que a mudança na execução de um nível para outro de um fator pode ter um custo muito alto. Se em um caso como este o plano experimental escolhido for um plano em parcelas subdivididas (split-plot), ao invés de ir de nível ao outro

(16)

várias vezes, seriam separados os tratamentos por grupos de mesmo nível, os tratamentos dentro de cada grupo seriam aleatorizados e cada grupo também, essa execução com essas restrições na aleatorização geraria uma maior economia.

Considerando que o split-plot é muito utilizado e suas análises são de maior complexidade é muito importante que quando houver ocorrência de dados faltantes estes sejam estimados de maneira apropriada para que os resultados da análise não sejam afetados. Assim, o plano experimental foco deste trabalho é o plano em parcelas subdivididas.

Este trabalho traz a metodologia, aplicação e comparação dos métodos de Coons, Haseman & Gaylor e Rubin citados acima. O trabalho também apresenta um estudo simulação, em que observações faltantes são estimadas pelos três métodos e incorporadas aos dados para análise. Aspectos como magnitude dos efeitos ativos, desvio padrão dos erros, quantidade dos efeitos ativos, localização das observções faltantes e distribuição dos erros das estimações, também são abordados neste trabalho.

Neste trabalho o software R Core Team (2017) é a ferramenta utilizada para implementação computacional dos métodos abordados.

1.1

Objetivos

O principal objetivo deste trabalho é fazer um estudo de simulação para comparar entre os métodos de estimação de dados faltantes desenvolvidos por Coons (1957), Rubin (1972) e Haseman e Gaylor (1973), aplicados ao plano com restrição na aleatorização em

parcelas subdivididas.

Os objetivos específicos são

• Definir a metodologia de cada método;

• Aplicar as metodologias aos dados simulados para um plano split-plot específico; • Analisar as observações estimadas por todos os métodos;

• Comparar aspectos principais: erro médio da estimação, desvio-padrão do erro médio da estimação, média dos efeitos, variância dos efeitos e desempenho na identificação correta dos efeitos como ativos ou inativos;

1.2

Desenvolvimento dos capítulos

O capítulo 2 deste trabalho é composto por uma revisão e/ou apresentação de conceitos importantes para o pleno entendimento dos capítulos seguintes. O terceiro capítulo apresenta a metodologia das técnicas de estimação dos dados faltantes de Coons(1957),

(17)

Rubin(1972) e Haseman e Gaylor(1973). O Capítulo 4 apresenta a metodologia utilizada para obtenção dos resultados apresentados e analisados no Capítulo 5. E por fim, o Capítulo 6 sumariza o que foi observado na análise dos resultados.

(18)

2 Revisão Conceitual

Este capítulo tem como objetivo revisar e/ou apresentar conceitos acerca do âmbito de planejamento de experimentos, os quais são necessários para melhor compreensão dos aspectos abordados nos capítulos consecutivos.

2.1

Experimento em Parcelas Subdivididas

Desenvolvido por Fisher e Yates e com grande aplicação nas áreas agrícola e industrial, os planos experimentais em parcelas sub-divididas são também conhecidos como split-plot. Diferente dos experimentos fatoriais que são executados aleatoriamente de acordo com o plano escolhido, o split-plot apresenta rstrição na aleatorização. Este plano foi criado com o intuito de possibilitar uma análise correta dos planos que possuem restrição na aleatorização.

Restrições na aleatorização geram a necessidade de aglomerar os tratamentos de mesmo nível em grupos distintos, de forma que a aleatorização será entre os grupos e dentro de cada grupo, além disso, duas unidades experimentais são criadas: a parcela e a subparcela. As parcelas são formadas pelos fatores cujos níveis são mais difíceis de variar, enquanto as subparcelas são constituídas por fatores em que a mudança de um nível para outro é mais simples.

Um modelo para um plano em parcelas subdivididas é dado por:

Yij = µ + αi+ δi+ βj+ (αβ)ij + εj

Em que,

• i = 1, · · · , a e j = 1, · · · , b; • µ representa a média;

• αi é o efeito do i-ésimo tratamento da parcela (A);

• δi é o erro aleatório atribuído a parcela (A);

• βj é o efeito do j-ésimo tratamento da subparcela (B);

• (αβ)ij é o efeito da interação do i-ésimo tratamento da parcela e do j-ésimo tratamento

(19)

• εj é o erro aleatório atribuído a subparcela (B).

A análise de variância (ANOVA) deste tipo de plano experimental é formada por uma análise da parcela e por uma análise da subparcela. Esta análise de variância é apresentada na Tabela 1.

Tabela 1 – Análise de Variância do split-plot

Fonte de Variação GL SQ QM αi (I − 1) SQαi SQαi (I−1) δi (I − 1) SQεi SQεi (I−1) βj (J − 1) SQβj SQβj (J −1) (αβ)ij (I − 1)(J − 1) SQ(αβ)ij SQ(αβ)ij (I−1)(J −1) εj I(J − 1) SQεj SQεj I(J −1)

Total (IJ − 1) SQT otal

-Sendo I e J o número de tratamentos da parcela e da subparcela, respectivamente.

2.2

Análise de Covariância - ANCOVA

A análise de covariância se diferencia da ANOVA devido a possibilidade de analisar dados com um ou mais variávis quantitativas independentes que se correlacionam com a variável dependente, ou seja covariáveis. Na ANOVA os componentes são baseados em efeitos e erros, enquanto na ANCOVA se tem efeitos, erros e covariáveis. A tentativa de eliminar um erro aleatório ou apenas diminuir este resíduo que pode ocorrer durante um experimento, pode ser um dos motivos para incluir uma covariável na análise.

Seja X uma covariável independente, Y a variável resposta dependente, N = 2K em que K é o número de fatores, p = 1, · · · , 2K é o índice dos tratamentos, i e j variam

de 1 até o número de níveis dos fatores que formam o p − ésimo tratamento, n1 = 2kp em que kp é o número de fatores que formam o tratamentop e n2 = N − n1 .

De acordo com Anjos (2004) modelo para a ANCOVA é dado por:

yij = µ + αi+ β(Xij − X) + eij

sendo:

• µ representa a média;

(20)

• Xij é o valor observado da covariável;

• X é a média da covariável;

• β é o coeficiente de regressão linear entre a covariável X e a variável resposta Y .

A Tabela 2 apresenta a forma mais geral da ANCOVA, de acordo com o ex-perimento sob análise podem haver mais fontes de variação bem como mais produtos cruzados.

Tabela 2 – Análise de Covariância

Fonte de Variação GL Produto Cruzado XY Soma de Quadrados XX

T ratamentop n1− 1 Txy(p) Txx(p) Errop n1(n2− 1) Exy(p) Exx(p) Total N − 1 Sxy(p) Sxx(p) Em que: Sxy(p) = N X ij=1 xijyij(x..)(y..) N Txy(p) = n1 X i=1 (xi.)(yi.) n2 − (x..)(y..) N Exy(p) = Sxy(p) − Txy(p) Sxx(p) = N X ij=1 x2ij(x..) 2 N Txx(p) = n1 X i=1 x2 i. n2 − (x..) 2 N Exx(p) = Sxx(p) − Txx(p)

2.3

Método de Lenth

Um dos objetivos da análise de um experimento é identifcar efeitos ativos ou não ativos dentre os efeitos estimados, ou seja, identificar quais tratamentos fornecem efeitos considerados não nulos estatísticamente. Existem algumas formas mais conhecidas para isso, como os gráficos de Probabilidade Normal e o método de Lenth. Neste trabalho considera-se o método de Lenth (1989) que além de possibilitar a análise dos efeitos de um plano em parcelas subdivididas não replicado, este método também possibilita uma análise mais precisa, uma vez que define se os efeitos são ativos ou inativos comparando os valores destes efeitos com os valores de uma margem de erro (ME) e uma margem de erro simultânea (SME), logo, não é uma análise subjetiva.

(21)

O método se baseia na esparsidade dos efeitos. O gráfico é composto por um Pseudo Erro Padrão (PSE), pela margem de erro (ME) e pela margem de erro simultânea (SME). Os efeitos, em módulo, maiores que SME são considerados ativos, os que estão entre SME e ME podem ser considerados ativos e aqueles abaixo do ME não são efeitos ativos.

Considere c1· · · cm os efeitos estimados. As equações para obter PSE, ME e SME

são dadas, respectivamente, por:

P SE = 1,5 · mediana|ci|, i = 1, · · · ,m

M E = t0,975;gl· P SE

SM E = tγ;gl· P SE

(22)

3 Métodos de Estimação de Dados Faltantes

Este capítulo apresenta as metodologias para estimação de dados faltantes pro-postos por Coons (1957), Haseman & Gaylor (1973) e Rubin (1972).

3.1

Método de Coons

Em 1957, Irma Coons propôs um método de estimação de uma ou mais obser-vações faltantes através da Análise de Covariância (ANCOVA). O método, que pode ser adaptado para qualquer experimento estatístico, utiliza como base os resultados de somas de quadrados e somas de produtos.

A variável resposta Yj é formada pelas observações obtidas no experimento, em

que j = 1, · · · , n e n = 2K sendo K o número de fatores do experimento. Neste método é necessária a inserção de zero no lugar das observações faltantes na variável Y . A quantidade de covariáveis depende da quantidade de observações faltantes (m), desta forma Xij é a

covariável criada, em que i = 1, · · · ,m.

Assim, se no experimento há uma observação faltante uma covariável X1j deve ser criada, se são duas as observações faltantes então devem ser criadas X1j e X2j, sendo cada covariável formada por um vetor de tamanho igual a quantidade de tratamentos (n).

Cada covariável Xij será referente à uma observação faltante, dessa forma insere-se

−n na posição j em que se encontra a observação faltante em Y e zero nas demais posições.

Xij =    0, se Yj 6= 0 −n, se Yj = 0

Exemplo: Considere um experimento fatorial 23, o qual totaliza 8 tratamentos e possui duas observações faltantes, situadas em Y4 e Y8, respectivamente. Neste caso criam-se as covariáveis X14 e X28, e insere-se −8 na posição 4 de X14 e −8 na posição 8 de X28, de forma que:

Y = (10,20,30,0,15,25,35,0)

X14 = (0,0,0, − n,0,0,0,0) = (0,0,0, − 8,0,0,0,0)

X28 = (0,0,0,0,0,0,0, − n) = (0,0,0,0,0,0,0, − 8)

Após a criação das covariáveis são realizados os cálculos necessários da análise de covariância. A inserção de −n nas posições referentes as observações faltantes é feita devido a soma de quadrados para variáveis concomitantes (XX) ser igual a n · gl, em que

(23)

No caso de mais de uma observação faltante é necessário realizar uma análise de covariância múltipla com Y e as m covariáveis, em que, para a soma do produto XmXn,

duas situações devem ser analisadas:

1. Quando as observações faltantes referentes a Xm e Xn são do mesmo nível para uma

fonte de variação, então a soma de XmXn é igual a soma de XX.

2. Quando as observações faltantes referentes a Xm e Xn não são do mesmo nível para

uma fonte de variação, então a soma de XmXn é dada por −n · r.

Em que r depende da classificação hierárquica. No caso do split-plot, que não tem classificação hierárquica, r = 1.

Para somas de quadrados de interação, é necessário realizar a subtração dos efeitos princiais e interações de menor ordem.

A estimativa da observação faltante é dada por: b

Y = n ·βb em que

b

β = Exy/Exx

Exy e Exx, são as soma de produtos XY e da soma de quadrados XX dos erros

obtidos na ANCOVA e β é o coeficiente de regressão.

No caso de mais de uma observação faltante a forma matricial é a indicada.      b β1 .. . b βm      1×m =      EXX · · · EXaXb .. . · · · ... EXaXb · · · EXX      −1 m×m ·      EX1Y .. . EXmY      m×1 c Yi = n ·      b β1 .. . b βm      ,

(24)

3.2

Método de Haseman e Gaylor

Haseman e Gaylor propuseram, em agosto de 1973, um método de estimação de múltiplas observações faltantes em que há classificação cruzada. O método consiste em uma extensão da técnica desenvolvida por Yates(1933), a qual tem como objetivo a estimação de observações faltantes para classifcação cruzada em dois fatores.

Vale destacar que, dois fatores são cruzados quando cada nível de um fator tem combinação com todos os níveis do outro fator, ou seja, sempre deverá haver observação em cada combinação possível dos níveis dos dois fatores.

Por exemplo, considere um experimento fatorial 23, em que os fatores são A, B e C com níveis representados por −1 e 1. O nível negativo de A terá combinação com os dois níveis de B e cada combinação resultante terá combinação com os dois níveis de C. Analogamente, encontram-se as combinações para o nível positivo de A. Com isso, pode-se dizer que os fatores A, B e C são cruzados.

A técnica proposta por Haseman e Gaylor é utilizada em experimentos em que ocorre classifcação cruzada em P fatores (F1, F2, · · · , Fp). Considere que estes fatores

tenham suas respectivas quantidades de níveis representadas por (r1, r2, · · · , rp). O Erro é

composto pelas interações de maior ordem e tem grau de liberdade f que deve ser obtido sem as observações faltantes. Assim o grau de liberdade do erro é (f − m) em que m é o número de observações faltantes e f > m. Das interações não incluídas no erro, a maior ordem define U.

As estimativas são obtidas através da solução de sistemas de equações formadas pela seguinte expressão:

f θhm X g6=h θg U X b=0 (−1)U −b   P − b − 1 U − b  Dghb = U X b=0 (−1)U −b   P − b − 1 U − b  Ehb, em que: P é o número de fatoes do experimento, b = 0, · · · , U , θh e θg representam as observações

faltantes, sendo h = 1, · · · , m e g = 1, · · · , m. Dghb=P P i1=1 PP i2=1· · · PP ib=1ri1ri2· · · ribΨgh(Fi1, · · · ,Fib), i16= i26= · · · 6= ib Ψgh(Fi1, · · · ,Fib) =   

1, se θg e θh são do mesmo nível nos f atores (Fi1, · · · ,Fib)

0, caso contrário Ehb =PPi1=1 PP i2=1· · · PP ib=1ri1ri2· · · ribTh(Fi1,Fi2, · · · ,Fib), i1 6= i2 6= · · · 6= ib

Th(Fi1,Fi2, · · · ,Fib) = Soma total das observações dos níveis dos f atores Fi1,Fi2, · · · ,Fibque contém θh.

(25)

3.3

Método de Rubin

Em 1972, Donald B. Rubin propôs um método de estimação de dados faltantes em qualquer modelo de análise de variância. Para aplicar esta técnica é necessário conhecimento de ANOVA para dados completos e de operação com matrizes. Na prática, é um método de rápida aplicação e pouco esforço computacional quando trabalhado com o software R, já que nele existe função pronta para obter os resultados da ANOVA.

De forma semelhante ao método de Coons, os valores observados são representados pela variável Y em que deve ser adicionado zero nas células referentes as observações faltantes. Neste método também devem ser criadas covariáveis Xij, em que i varia de um

até o número de observações faltantes (m). Nesta técnica cada covariável é criada inserindo o valor um na célula respectiva a observação faltantes e zero nas demais, assim:

Xij =    0, se Yj 6= 0 1, se Yj = 0

Análises de variância da variável Y e de cada uma das covariáveis Xi são realizadas.

O objetivo destas ANOVA’s é de obter os resíduos referentes às células das observações que se deseja estimar.

As estimativas das observações faltantes são obtidas pela multiplicação matricial de −ρ e R−1, em que ρ é uma matriz de dimensão m × 1 formada pelos resíduos obtidos na ANOVA da variável Y e R é uma matriz de dimensão m × m constituída pelos resíduos obtidos nas ANOVA’s das m covariáveis X. Desta forma tem-se que:

b Y = −ρ · R−1 Em que: ρ = (RY1· · · RYm) R =      RX11 · · · RX1m .. . ... ... RXm1 · · · RXmm     

(26)

4 Metodologia

Este capítulo tem como objetivo apresentar e descrever toda a metodologia utilizada na obtenção dos resultados deste estudo, desde a escolha de um plano experimental específico até a simulação, a qual engloba a geração e a análise dos dados.

Desta forma, são descritos neste capítulo:

• Definição do plano experimental e aplicação dos métodos ao plano; • Implementação dos métodos de estimação dos dados faltantes; • Geração dos dados através de simulação em cenários diversos; • Estimação das observações faltantes e imputação destas nos dados; • Estudo das distribuições dos erros de estimação e erro total;

• Estudo das distribuições das estimativas dos efeitos e

• Estudo do desempenho dos métodos quanto a identificação de efeitos ativos e/ou não ativos.

4.1

Plano Experimental

A motivação para escolha de um plano experimental específico é dada pelo fato de que a implementação computacional do método de Coons é feita de forma exclusiva para cada delineamento, o que requer tempo significativo para esta implementação. Além disso, o método proposto por Haseman & Gaylor também apresenta cálculos específicos para cada plano, que apesar das modificações não serem tão extensas quanto no método de Coons também seria necessário um acréscimo no tempo para implementação, o que seria inviável para conclusão deste trabalho.

O split-plot é um plano comumente utilizado quando se tem restrição na aleato-rização, na maioria das vezes com o intuito de reduzir custos ou tempo na execução do experimento. Um aspecto importante ao planejar um experimento como este é determinar se haverá ou não réplicas.

As réplicas são importantes quando se deseja verificar se as observações apresentam diferenças estatísticamente significativas e também permitem estimar os efeitos com maior precisão. Porém, adicionar réplicas ao experimento aumenta o custo e o tempo de execução.

(27)

Assim, visando que, de forma generalizada, a maior dificuldade quando se quer realizar um experimento são custo e tempo, o plano experimental ao qual os métodos são aplicados neste trabalho é um split-plot não-replicado, definido a seguir.

Definição: Considere um experimento de parcelas subdivididas 23×2 sem réplicas, em que M , N e P são os fatores que compõem a parcela e K é o fator que compõe a subparcela, apresentado na Tabela 3.

Tabela 3 – Split-plot 23× 2 M N P KK+ -1 -1 -1 (1) k 1 -1 -1 m mk -1 1 -1 n nk 1 1 -1 mn mnk -1 -1 1 p pk 1 -1 1 mp mpk -1 1 1 np npk 1 1 1 mnp mnpk

O modelo para este plano é dado por:

Yij = µ + αi+ δi+ βj+ (αβ)ij + εj

Em que,

• µ representa a média geral;

• αi é o efeito do i-ésimo tratamento da parcela (A);

• δi é o erro atribuído a parcela (A);

• βj é o efeito do j-ésimo tratamento da subparcela (B);

• (αβ)ij é o efeito da interação do i-ésimo tratamento da parcela e do j-ésimo tratamento

da subparcela (AB);

• εj é o erro atribuído a subparcela (B).

Considere o erro aleatório como a soma dos erros atribuídos a parcela e a subpar-cela.

Definição: Sejam δ e ε variáveis aleatórias quantitativas contínuas independentes,

que representam os erros atribuídos a parcela e a subparcela, respectivamente, com distribuições:

(28)

Como cada parcela é formada por combinações nos dois níveis do fator da subpar-cela (k), tem-se δi, com i = 1, · · · ,8 e εij, com j = 1,2, conforme Tabela 4. Os valores que

δ e ε assumem são gerados de forma independente.

Tabela 4 – Erros Y M N P K Erro (Eyi) y1 -1 -1 -1 -1 δ1+ ε11 y2 -1 -1 -1 1 δ1+ ε12 y3 1 -1 -1 -1 δ2+ ε21 y4 1 -1 -1 1 δ2+ ε22 y5 -1 1 -1 -1 δ3+ ε31 y6 -1 1 -1 1 δ3+ ε32 y7 1 1 -1 -1 δ4+ ε41 y8 1 1 -1 1 δ4+ ε42 y9 -1 -1 1 -1 δ5+ ε51 y10 -1 -1 1 1 δ5+ ε52 y11 1 -1 1 -1 δ6+ ε61 y12 1 -1 1 1 δ6+ ε62 y13 -1 1 1 -1 δ7+ ε71 y14 -1 1 1 1 δ7+ ε72 y15 1 1 1 -1 δ8+ ε81 y16 1 1 1 1 δ8+ ε82

Observação: Vale ressaltar que os contrastes das Tabelas 3 e 4 estão dispostos de

formas diferentes, logo, y1 na Tabela 3 não é necessáriamente equivalente à y1 na Tabela 4. Considere EM e EKos efeitos dos fatores M e K, que respectivamente, representam

um efeito da parcela e um efeito da subparcela. Estes efeitos são dados por:

EM = yM+−yM− = 1 8[y5+y6+y7+y8+y13+y14+y15+y16−(y1+y2+y3+y4+y9+y10+y11+y12)] EK = yK+−yK− = 1 8[y2+y4+y6+y8+y10+y12+y14+y16−(y1+y3+y5+y7+y9+y11+y13+y15)] As expressões dos efeitos utilizam os valores de Y , já as expressões das variâncias dos efeitos são dadas pela variância da diferença entre o erro médio para o fator no nível positivo e o erro médio para o fator no nível negativo.

(29)

Dessa forma, tem-se que a variância de um efeito da parcela é dado por:

σ2EP(M ) = V ar(ErroM+− ErroM−)

= V ar(1

8[Ey5 + Ey6 + Ey7 + Ey8 + Ey13 + Ey14+ Ey15+ Ey16 − (Ey1 + Ey2 + Ey3 + Ey4 + Ey9 + Ey10+ Ey11+ Ey12)])

= 1 64V ar(δ3+ ε31+ δ3+ ε32+ δ4+ ε41+ δ4+ ε42+ δ7+ ε71 + δ7+ ε72+ δ8+ ε81+ δ8+ ε82+ δ1+ ε11+ δ1 + ε12+ δ2+ ε21 + δ2+ ε22+ δ5+ ε51+ δ5+ ε52+ δ6+ ε61+ δ6 + ε62) = 1 64(4V ar( 8 X i=1 δi) + V ar( 16 X j εj)) = 1 2σ 2 δ + 1 4σ 2 ε

A variância de um efeito da subparcela é dado por:

σESP2 (K) = V ar(ErroK+ − ErroK−))

= V ar(1

8[Ey2 + Ey4 + Ey6 + Ey8 + Ey10 + Ey12 + Ey14+ Ey16 − (Ey1 + Ey3 + Ey5 + Ey7 + Ey9 + Ey11+ Ey13+ Ey15)])

= 1 64V ar(δ1+ ε12+ δ2+ ε22+ δ3 + ε32+ δ4+ ε42+ δ5+ ε52 + δ6+ ε62+ δ7+ ε72+ δ8+ ε82+ δ1+ ε11+ δ2+ ε21+ δ3+ ε31 + δ4+ ε41+ δ5+ ε51+ δ6+ ε61+ δ7+ ε71+ δ8+ ε81) = 1 64(V ar( 16 X j εj)) = 1 4σ 2 ε

As unidades experimentais de um plano em parcelas subdivididas possuem va-riâncias dos efeitos diferentes, ou seja, a variância dos efeitos da parcela é diferente da variância dos efeitos da subparcela, em que todos os efeitos da parcela tem a mesma variância σ2

EP e todos os efeitos da subparcela tem a mesma variância σESP2 . A variância

da parcela é maior do que a variância da subpracela σ2

EP > σESP2 , isto ocorre pois a parcela

é a unidade experimental definida pelos fatores em que ocorrem as restrições e a variância dos efeitos da parcela depende das variâncias da parcela σ2

δ e da subparcela σε2 com maior

peso atribuído a variância da parcela. Já a variância dos feitos da subparcela depende apenas da variância da subparcela σ2

(30)

4.1.1

Método de Coons

O split-plot em questão resulta em dezesseis tratamentos (n = 16), logo, as posições em Xi referentes as observações faltantes devem ser substituídas por -16.

Para a análise de covariância são calculadas as somas dos produtos para as fonte de

variação M, N, P, K, M N, M P, M K, N P, N K, P K, M N P, M N K, M P K, N P K, M N P K, E(M N P ), E(K) sendo as somas para os erros formadas por interações de terceira e quarta ordem. Assim, a

soma para E(M N P ) é composta pela soma da única interação de terceira ordem formada pelos fatores da parcela M N P e a soma para E(K) é composta pelas interações de terceira ordem que incluem o fator da subparcela(M N K, M P K, N P K) e pela interação de quarta ordem (M N P K).

Vale ressaltar que deve-se subtrair das somas de quadrados das fontes de variação compostas por interação entre fatores, as somas dos efeitos principais e das interações de menor ordem.

Em suma, para construção da tabela da ANCOVA, Tabela 5 deste experimento, é necessária a resolução das somas de quadrados e somas de produtos.

Tabela 5 – Análise de Covariância (split-plot 23× 2)

Fonte de Variação GL Soma de Produto XY Soma de Quadrados XX

M 1 TM xy TxxM N 1 TxyN TxxN P 1 TP xy TxxP MN 1 TxyM N TxxM N MP 1 TM P xy TxxM P NP 1 TN P xy TxxN P E(MNP) 1 EM N P xy ExxM N P K 1 TK xy TxxK MK 1 TxyM K TxxM K NK 1 TN K xy TxxN K PK 1 TxyP K TxxP K E(K) 4 EK xy ExxK Total 15 Sxy Sxx

Os Erros das somas de produtos e das somas de quadrados usados para determinar o coeficiente de regressão β são os Erros referentes a subparcela Eb K

xy eExxK.

Implementação Computacional: A implementação deste método no Software R

(31)

desvantagem deste método é o fato de sua implementação ser específica para cada plano experimental.

4.1.2

Método de Haseman e Gaylor

O experimento em parcelas subdividas em questão é um experimento em que os fatores são cruzados. Observando a Tabela 5 percebe-se que cada nível de cada fator tem combinação com todos os níveis de todos os fatores, logo, o método desenvolvido por Haseman e Gaylor pode ser usado na estimação de observações faltantes deste experimento.

O split-plot em análise possui três fatores na parcela e um na subparcela, sendo assim, temos uma classificação cruzada com quatro fatores (p = 4). Tem-se ainda in-terações de segunda, terceira e quarta ordem, as inin-terações de maior ordem devem compor o erro, sendo que neste plano estas são as interações de terceira e quarta ordem (M N P, M N K, M P K, N P K e M N P K) com grau de liberdade (f = 5). Defini-se U como a maior ordem de interação não incluída no erro, neste caso U = 2. Considerando m o número de observações faltantes, tem-se que apartir da expressão geral consegue-se chegar a expressão a ser utilizada para a estimação das observações faltantes no split-plot 23× 2, como demonstrado a seguir:

f θhm X g6=h θg U X b=0 (−1)U −b   P − b − 1 U − b  Dghb = U X b=0 (−1)U −b   P − b − 1 U − b  Ehb

Substituindo p = 4, f = 5 e U = 2, temos que:

5θhm X g6=h θg 2 X b=0 (−1)2−b   4 − b − 1 2 − b  Dghb = 2 X b=0 (−1)2−b   4 − b − 1 2 − b  Ehb

Abrindo o somatório em que b varia de 1 até U , chega-se na seguinte expressão: 5θhm X g6=h θg[(−1)2−0 4 − 0 − 1 2 − 0 ! Dgh0+(−1)2−1 4 − 1 − 1 2 − 1 ! Dgh1+(−1)2−2 4 − 2 − 1 2 − 2 ! Dgh2] = [(−1)2−0 4 − 0 − 1 2 − 0 ! Eh0+ (−1)2−1 4 − 1 − 1 2 − 1 ! Eh1+ (−1)2−2 4 − 2 − 1 2 − 2 ! Eh2]

Calculando as combinações e fazendo as mútiplicações necessárias, tem-se que: 5θh

m

X

g6=h

θg[3 · Dgh0+ (−2) · Dgh1+ 1 · Dgh2] = [3 · Eh0+ (−2) · Eh1+ 1 · Eh2],

Como citado na seção 3.2, no caso em que b = 0 são necessárias as substituições Dgh0 = 1

e Eh0 = T , chegando assim na expressão:

5θhm

X

g6=h

(32)

Em que: Dgh1 = P X i1=1 ri1Ψgh(Fi1) = 2 · Ψgh(M ) + 2 · Ψgh(N ) + 2 · Ψgh(P ) + 2 · Ψgh(K) = 2[Ψgh(M ) + Ψgh(N ) + Ψgh(P ) + Ψgh(K)] Dgh2 = P X i1=1 P X i2=1 ri1ri2Ψgh(Fi1,Fi2) = 2 · 2[Ψgh(M N ) + Ψgh(M P ) + Ψgh(M K) + Ψgh(N P ) + Ψgh(N L) + Ψgh(P K)] Eh1 =PPi1=1ri1Th(Fi1) = 2[Th(M ) + Th(N ) + Th(P ) + Th(K)] Eh2= P X i1=1 P X i2=1 ri1ri2Th(Fi1,Fi2) = 2 · 2[Th(M N ) + Th(M P ) + Th(M K) + Th(N P ) + Th(N K) + Th(P K)]

Implementação Computacional: A implementação deste método no Software R

também é completamente manual pois não existem pacotes com funções pré definidas. Este porém é um método mais enxuto do que o método de Coons. Uma desantagem é que as estimativas são obtidas por meio da solução de equações simultâneas, o que pode não ser tão simples para implementação no software.

4.1.3

Método de Rubin

Como visto anteriormente, o método proposto por Rubin faz uso dos resíduos encontrados nas análises de variância da variável resposta Y e das m covariáveis X. Por ser um método muito geral há apenas um aspecto a ser observado em experimentos diferentes: quais elementos devem compor o resíduo.

O modelo de split-plot analisado neste trabalho tem interações de até quarta ordem. As interações de maior ordem foram incorporadas aos resíduos, de forma que o modelo ajustado é composto pelos fatores principais e interações de segunda ordem.

Implementação Computacional: Computacionalmente, este é o método mais

sim-ples e rápido uma vez que requer o conhecimento de funções pré existentes e conhecimentos básicos acerca do Sotware R.

(33)

4.2

Simulação

"Simulação é um processo de projetar um modelo computacional de um sistema real e conduzir experimentos com esse modelo com o propósito de entender seu comportamento e/ou avaliar estratégia para a sua operação."Pegden, Sadowski e Shannon (1995)

A definição de simulação acima descreve com precisão o objetivo da simulação neste trabalho, que em outras palavras, se resume em reproduzir observações seguindo o modelo do plano experimental Split-Plot 23× 2 e estudar o comportamento e desempenho dos métodos de estimação de dados faltantes aplicados a esses dados.

Para realizar a simulação alguns cenários são estudados e três fatores são conside-rados: variâncias dos efeitos da parcela e subparcela, posição das observações faltantes, quantidade de efeitos ativos. A escolha destes fatores foi feita baseada em uma simulação piloto, na qual constatou-se que, dentre outros, estes foram os fatores que mostraram influenciar alguns resultados. O número de fatores foi escolhido devido à quantidade de cenários de simulação que estes resultariam, mesmo considerando apenas três fatores ainda foi necessário fracionar o experimento de forma que fosse possível executar todos os cenários no tempo disponível para conclusão deste trabalho.

O experimento neste caso seria um 33 × 3 pois os fatores apresentam 3 níveis cada e o estudo é feito para três métodos. Contudo, este experimento geraria 27 cenários por método, totalizando 81 tratamentos. Para minimizar esta quantidade, o experimento foi fracionado para 32 × 3 resultando em 9 cenários para cada método e totalizando 27 tratamentos.

Para o experimento acima, a codificação dos níveis dos fatores é dada por: • Variâncias da parcela e subparcela: A variância da subparcela σ2

ε foi fixada em 1. A Variância da Parcela σ2 δ (VP) é codificada em Nível 0: σ2 δ = 0; Nível 1: σ2 δ = 1 e; Nível 2: σ2 δ = 2 .

• Posição das Observações Faltantes (POF):

Nível 0: 2 na mesma parcela e 1 em outra parcela ((1), k, mnpk);

Nível 1: 3 em parcelas diferentes mas no mesmo nível de K e (m, n, mnp); Nível 2: 3 em parcelas diferentes e diferentes níveis de K (mnk, p, np). • Quantidade de Efeitos Ativos (QEA):

Nível 0: 2 efeitos ativos; Nível 1: 3 efeitos ativos e; Nível 2: 4 efeitos ativos.

(34)

Para cada nível da quantidade de efeitos ativos, dois critérios são considerados: Magni-tude dos Efeitos Ativos (MEA) que pode ser (1σ2

EP, 5σEP2 , 10σ2EP), (1σESP2 , 5σESP2 , 10σESP2 )

e Posição dos Efeitos Ativos (PEA).

A fração foi escolhida de acordo com Montgomery (2001). 000 012 021

101 110 122 202 211 220

Neste estudo são simulados os seguites cenários para cada método: Tabela 6 – Cenários Simulação

Cenário Tratamento VP OF QEA PEA MEA

1 M, P 1,10 000 0 (1), k, mnpk 2 M, K 5,5 K, MK 1,10 2 101 1 (1), k, mnpk 3 N, MP, NK 10,1,5 MN, PK, NK 5,1,10 3 NP, M, K, MK 1 ,10, 1, 5 202 2 (1), k, mnpk 4 N, K, NK, PK 5, 10, 5, 1 P, M, N ,K 1, 5, 10, 10 4 NP, M, K, MK 1 ,10, 1, 5 012 0 m, n, mnp 4 N, K, NK, PK 5, 10, 5, 1 P, M, N ,K 1, 5, 10, 10 5 M, P 1,10 110 1 m, n, mnp 2 M, K 5,5 K, MK 1,10 6 211 2 m, n, mnp 3 N, MP, NK 10,1,5 MN, PK, NK 5,1,10 7 021 0 mnk, p, np 3 N, MP, NK 10,1,5 MN, PK, NK 5,1,10 8 NP, M, K, MK 1 ,10, 1, 5 122 1 mnk, p, np 4 N, K, NK, PK 5, 10, 5, 1 P, M, N ,K 1, 5, 10, 10 9 M, P 1,10 220 2 mnk, p, np 2 M, K 5,5 K, MK 1,10

Note que dentro de cada cenário PEA e MEA variam.

As variâncias dos efeitos da parcela e da subparcela usadas para magnitude dos efeitos ativos, dependem das variâncias da parcela e subparcela (σδ2, σ2ε). Como existem três níveis de VP, tem-se diferentes variâncias dos efeitos para cada situação.

(35)

Tabela 7 – Variâncias dos Efeitos (0,1) (1,1) (2,1) σ2 EP 0,50 0,87 1,12 σ2 ESP 0,50 0,50 0,50

4.2.1

Obtenção dos dados

Neste estudo de simulação tem-se cinco variáveis resposta de interesse, formadas por 16 observações cada, são elas:

• YT: Dados teóricos;

• YObs: Dados observados;

YbC: Dados com a imputação das estimativas obtidas pelo método de Coons; • YbR: Dados com a imputação das estimativas obtidas pelo método de Rubin e • YbHG: Dados com a imputação das estimativas obtidas pelo método de Haseman e

Gaylor;

Definição: Sejam os dados teóricos obtidos pelo produto matricial entre a matriz

de contrastes do plano experimental e a matriz de coeficientes (C16×1). Desta forma, tem-se que: YT =                                             −1 · · · 1 1 · · · −1 −1 · · · −1 1 · · · 1 −1 · · · −1 1 · · · 1 −1 · · · 1 1 · · · −1 −1 · · · −1 1 · · · 1 −1 · · · 1 1 · · · −1 −1 · · · 1 1 · · · −1 −1 · · · −1 1 · · · 1                                             16×16 ×                                             C1 C2 C3 C4 C5 C6 C7 C8 C9 C10 C11 C12 C13 C14 C15 C16                                             16×1 =                                             YT1 YT2 YT3 YT4 YT5 YT6 YT7 YT8 YT9 YT10 YT11 YT12 YT13 YT14 YT15 YT16                                             16×1

(36)

O modelo definido anteriormente é composto por uma média geral, por coeficientes da parcela, coeficientes da subparcela e também por dois erros δ e ε.

Após a obtenção dos dados teóricos, gera-se aleatória e simultâneamente δ e ε, de acordo com o apresentado nas Tabelas 4 e 6, em que nos vetores de δ as observações de mesma parcela recebem os mesmos valores.

Como um dos objetivos é avaliar o desempenho dos métodos, são simulados neste trabalho cinco mil vetores para cada cenário. Tamanho este estabelecido através de resultados de simulações piloto.

Os dados resultantes de um experimento real são os dados observados, nos quais podem haver observações faltantes. Como este trabalho faz um estudo de simulação, o dados observados são representados por dados simulados, formados pelos dados teóricos e pelos erros aleatórios. Como aconteceria um experimento real, estes dados simulados são submetidos aos métodos considerados neste estudo para obter as estimativas das observações faltantes.

Definição: Seja YObs a variável dos dados simulados que representam os dados

observados. Assim, YObs é definida como a soma dos dados teóricos com os erros aleatórios,

de maneira que:

YObsi,j = YTi + δi,j + εi,j

em que i = 1, · · · ,16 e j = 1, · · · , 5000.

A partir de YObs são definidas as observações faltantes. Como este plano

experi-mental tem 16 observações, considerou-se razoável definir três como o número máximo de observações faltantes, outra justificativa para esta escolha é que no método de Haseman e Gaylor as estimativas são obtidas através da solução de equações simultâneas, em que quanto mais parâmetros a serem estimados maior é a dificuldade de resolução.

Sejam as observações YObs1 e YObs7 consideradas observações faltantes em que o

valor zero foi inserido nestas posições, da seguinte forma:

YObs =                      0 0 · · · 0 0

YObs2,1 YObs2,2 · · · YObs2,4999 YObs2,5000

..

. ... ... ... ...

YObs6,1 YObs6,2 · · · YObs6,4999 YObs6,5000

0 0 · · · 0 0

YObs8,1 YObs8,2 · · · YObs8,4999 YObs8,5000

..

. ... ... ... ...

YObs16,1 YObs16,2 · · · YObs16,4999 YObs16,5000

                     16x5000

(37)

Os três métodos de estimação são aplicados a cada vetor de observações indivi-dualmente. De maneira que, quando o número de observações faltantes é 1 cada método retorna 5000 estimativas, quando o número de observações faltantes é 2 cada método retorna 10000 estimativas e quando o número de observações faltantes é 3 cada método retorna 15000 estimativas.

Em seguida os valores estimados por cada método são imputados nas posições das referentes observações faltantes, gerando novos 5000 conjuntos de dados por método, assim são formados YbC, YbR e YbHG.

4.2.2

Análise dos Dados

A análise dos dados estimados é feita em três etapas principais: estudo dos erros das estimações; estudo dos efeitos dos dados estimados e desempenho quanto ao acerto de efeitos ativos e inativos.

A primeira etapa da análise consiste em estudar o quanto as estimativas dadas pelos métodos são próximas dos dados observados, bem como verificar a variabilidade dos métodos para estimação. Logo o objetivo é determinar os erros de estimação, bem como obter os erros médios e as variâncias destes.

Definição: Seja o erro aleatório Ea= δ + ε e o erro da estimação Ee = YObsYb.. O erro total (Et) é definido como a soma entre o erro aleatório e o erro da estimação, que

também pode ser obtido pela diferença entre YT e Yb., de maneira que:

Et= YTYb.= Ea+ Ee

As variâncias do Erro da estimação e do Erro total são dadas respectivamente por:

V ar(Ee) = V ar(YObsYb.) = V ar(YObs) + V ar(Yb.) − 2Cov(YObs,Yb.)

Como YT é constante e não correlacionado com Yb., tem-se que:

V ar(Et) = V ar(YTYb.) = V ar(Yb.)

Através da análise de simulações piloto observou-se que a correlação entre YObs e

todos os dados estimadosYb. é sempre positiva. Assim, a variância do Erro da estimação é sempre maior do que a variância do Erro total.

Como na composição dos dados observados tem-se a soma de duas variáveis aleatórias independentes que seguem distribuição Normal, sua distribuição será a soma de Normais: YObs ∼ N (0, σ2δ + σε2). Logo a variância dos dados observados é dada por:

V ar(YObs) = σ2δ + σ

2

(38)

Na segunda etapa da análise são obtidas, para cada cenário, as estimativas dos efeitos dos 5000 vetores de observações de YbC, YbR e YbHG. Para cada tratamento é feita a média e a variância dos cinco mil efeitos estimados, separadamente para a parcela e subparcela. Sendo que a parcela conta com 7 efeitos (M, N, P, MN, MP, NP e MNP), e a subparcela conta com 8 efeitos (K, MK, NK, PK, MNK, MPK, NPK e MNPK).

Para execução da terceira etapa da análise usa-se o método de Lenth para identificar efeitos ativos e não ativos.

Como apresentado na Seção 2.3 deste trabalho, ao usar o método de Lenth se efeitos ativos aqueles acima da Margem de Erro Simultânea (SME) e considera-se como possível ativo o efeito entre a Margem de Erro (ME) e SME. Neste trabalho a classificação dos efeitos é feita considerando dois casos: Efeito é ativo se for maior que SME e Efeito é ativo se for maior que ME.

Considere a variável ID como a classificação do efeito, então:

IDi =

  

1, se Ef eitoi f oi identif icado como ativo

0, se Ef eitoi f oi identif icado como inativo

em que i = 1, · · · , 5000.

Para verificar o desempenho quanto à identificação correta de efeitos ativos e inativos são usadas o poder, a taxa de erro individual (IER) e a taxa de erro experimental (EER).

Considere as hipóteses:

H0 : Ef eito Inativo × H1 : Ef eito Ativo

O poder é a probabilidade de rejeitar a hipótese nula dado que a hipótese nula é falsa:

P oder = P (Rejeitar H0|H1), ou seja, é a probabilidade do efeito ser classificado como ativo quando ele realmente é ativo.

A taxa de erro individual é caracterizada pelo erro do tipo I, ou seja, α =

P (Rejeitar H0|H0). Considerando as hipóteses seria a probabilidade de classificar o efeito como ativo dado que ele é inativo.

A taxa de erro experimental compara os efeitos simultaneamente, ela é a probabi-lidade de que pelo menos uma das classificações seja feita de forma incorreta. Por exemplo, considere os efeitos de m e k como ativos. A EER é a probabilidade de que m, k ou m e k sejam classifcados como inativos.

Para realização da análise destes aspectos defina a porcentagem de acertos (P) como: Pi =      P5000 i=1 IDi

5000 100, se Ef eitoi é ativo e f oi identif icado como ativo (5000−P5000i=1 IDi)

(39)

As porcentagens de identificação correta são feitas considerando apenas os efeitos da parcela, apenas os efeitos da subparcela e considerando todos os efeitos, ao todo são 8 cenários obtidos por cenário e método.

Tabela 8 – Cenários para verificação de desempenho Caso Definição de Ativo Verificação Efeitos

1 Ef eito > SM E Poder/IER Parcela 2 Ef eito > SM E Poder/IER Subparcela 3 Ef eito > SM E Poder/IER Todos 4 Ef eito > M E Poder/IER Parcela 5 Ef eito > M E Poder/IER Subparcela 6 Ef eito > M E Poder/IER Todos 7 Ef eito > SM E EER Todos 8 Ef eito > M E EER Todos

(40)

5 Resultados

Este capítulo tem como objetivo apresentar e analisar os resultados obtidos no estudo de simulação descrito no Capítulo 4. Estes resultados englobam a obtenção dos dados e suas análises.

Como detalhado na metodologia, os dados teóricos (YT) foram gerados pelos

contrastes e efeitos, de acordo com os cenários de simulação estabelecidos na Tabela 6. A partir destes dados foram gerados os erros aleatórios da parcela e subparcela, como especificado nas Tabelas 4 e 6, os quais somados aos dados teóricos deram origem aos dados observados (YObs).

Novamente de acordo com os cenários pré-estabelecidos, retirou-se dos dados observados as observações definidas para serem consideradas faltantes e inseriu-se o valor zero nas respectivas posições.

A maneira de implementação dos métodos neste trabalho restringe a média do modelo para µ 6= 0, pois usa o valor zero para identificar as posições das observações faltantes. Desta forma, em um experimento que possa de alguma maneira ter uma resposta igual a zero, o código interpretaria erroneamente como observação faltante. Logo, neste caso a forma de identificação das observações faltantes deve diferir da usada neste trabalho.

A partir dos dados observados com a inserção dos zeros, estimam-se as observações faltantes e imputam-se as estimativas nas respectivas posições de YObs.

Outra restrição encontrada neste trabalho foi na execução dos cenários para o método de Coons. Ao realizar a estimação, com a posição dos dados faltantes definida em duas na mesma parcela e uma em outra parcela, não foi possível obter resultados para este método. Isto ocorre pois as somas de quadrados de XX e de XaXb são iguais, logo a

matriz composta por estes resultados não é invertível, esta situação requer mais estudos para ser melhor compreendida e se possível solucionada.

A análise destes dados estimados (YbC, YbR, YbHG) é apresentada a seguir. Nesta análise apenas alguns resultados são apresentados a fim de ilustração do que se concluiu para o todo.

5.1

Erro Médio da Estimação

Após análise detalhada dos resultados pode-se dizer que os fatores Variância da Parcela e Quantidade de Efeitos Ativos não são significativos para o Erro Médio da estimação. Os fatores que precisam de maior atenção são a Posição da Observação Faltante

(41)

e o Método de estimação utilizado.

Os Erros médios da estimação apresentados nas Tabelas 9, 10 e 11 são referentes aos cenários 1, 5 e 9, no caso em que os efeitos ativos são M e K com Magnitude 5σ2

EP

cada.

Considere EMC, EMR e EMHG os erros médios da estimação para o método de

Coons, Rubin e Haseman e Gaylor respectivamente.

Tabela 9 – Erro médio da Estimação - Cenário 1

EMR EMHG 1 0,002 24,370 2 0,000 0,000 3 0,000 0,000 4 0,000 0,000 5 0,000 0,000 6 0,000 0,000 7 0,000 0,000 8 0,000 0,000 9 -0,006 8,117 10 0,000 0,000 11 0,000 0,000 12 0,000 0,000 13 0,000 0,000 14 0,000 0,000 15 0,000 0,000 16 0,050 32,541

Tabela 10 – Erro médio da Estimação - Cenário 5

EMC EMR EMHG 1 0,000 0,000 0,000 2 -0,006 -0,022 0,831 3 -0,017 -0,032 0,820 4 0,000 0,000 0,000 5 0,000 0,000 0,000 6 0,000 0,000 0,000 7 0,000 0,000 0,000 8 -0,007 -0,022 -5,138 9 0,000 0,000 0,000 10 0,000 0,000 0,000 11 0,000 0,000 0,000 12 0,000 0,000 0,000 13 0,000 0,000 0,000 14 0,000 0,000 0,000 15 0,000 0,000 0,000 16 0,000 0,000 0,000

(42)

Tabela 11 – Erro médio da Estimação - Cenário 9 EMC EMR EMHG 1 0,000 0,000 0,000 2 0,000 0,000 0,000 3 0,000 0,000 0,000 4 0,000 0,000 0,000 5 0,021 0,021 25,962 6 0,000 0,000 0,000 7 0,009 0,025 8,673 8 0,000 0,000 0,000 9 0,000 0,000 0,000 10 0,000 0,000 0,000 11 0,000 0,000 0,000 12 0,001 0,017 34,606 13 0,000 0,000 0,000 14 0,000 0,000 0,000 15 0,000 0,000 0,000 16 0,000 0,000 0,000

O método de Coons é afetado pela posição da observação faltante quando duas são na mesma parcela e uma em outra parcela, uma vez que neste caso não se consegue obter uma estimativa. Porém ao analisar o resultado para os demais níveis deste fator, o |EMC| permanece abaixo de 0,025 para as três observações faltantes, o que é um valor

satisfatório para a diferença entre o valor observado e o valor estimado.

No método de Rubin, o maior |EMR| foi de 0,05 considerando os três casos e as

três observações faltantes em cada caso. Ou seja, a estimativa obtida por este método não está sendo afetada pela posição das observações faltantes.

Ao observar os erros médios da estimação pelo método de Haseman e Gaylor (|EMHG|), nota-se claramente a influência da posição da observação faltante. Nos cenários

1 e 9 os erros médios chegam a ser maiores do que 30, enquanto o cenário 5, em que as observações faltantes são as 3 em parcelas diferentes e no mesmo nível de K, apresenta um |EMHG| ainda alto quando comparado aos outros métodos, porém não tão alarmante.

O gráfico da interação entre a posição da observação faltante e o método de estimação evidencia o comportamento do erro médio da estimação descrita acima quando ocorre a mudança de níveis destes fatores.

Considere os gráficos de interação a seguir para a observação faltante 1, 2 e 3, respectivamente. Os valores presentes no eixo y são as médias de EM para cada cenário, considerando todos os casos de cada cenário. O método de Rubin é representado pelo nível 1 e o de Haseman e Gaylor pelo nível 2. Devido à restrição no método de Coons, este não é comparado no gráfico. Os níveis 0, 1 e 2 da Posição das Observações Faltantes são

(43)

respectivamente 2 na mesma parcela e 1 em outra parcela ((1), k, mnpk); 3 em parcelas diferentes mas no mesmo nível de K e (m, n, mnp); 3 em parcelas diferentes e diferentes níveis de K (mnk, p, np).

Figura 1 – Gráficos de Interação para o erro médio da estimação

Pelos gráficos, percebe-se que para as 3 observações faltantes os métodos têm relação diferente com Erro médio da estimação. Percebe-se também que o EMR se mantém

constante em torno do zero para os três níveis do fator Posição, enquanto o EMHG é maior

quando está no nível 0, decresce rapidamente quando muda do nível 0 para o nível 1 e cresce também rapidamente quando muda do nível 1 para o nível 2.

(44)

5.2

Desvio Padrão do Erro da Estimação

No Capítulo 4 encontram-se as definições das variâncias do Erro da estimação e do Erro total, em que se é possível chegar a conclusão de que a variância do erro da estimação é sempre maior do que a variância total (V ar(Ee) > V ar(Et)). Considerando

que o desvio-padrão (SD) é a raiz quadrada da variância, e que ao aplicar uma raiz quadrada em ambos os lados de uma desigualdade esta desigualdade não é alterada, tem-se que (SD(Ee) > SD(Et)).

Considere o cenário 4 no caso em que NP, M, K, MK são os efeitos ativos. As Tabelas 12 e 13 apresentam respectivamente os desvios-padrão do Erro da Estimação e do Erro Total. Comparando os desvios-padrão nas posições das observações faltantes é evidente a confirmação na prática do que foi definido teóricamente, logo (SD(Ee) > SD(Et)) para

todas as observações faltantes e em todos os métodos. Os desvios-padrão para as observações que não foram estimadas são os desvios-padrão dos dados observados como definido no Capítulo 4.

Tabela 12 – Desvio-padrão do Erro da Estimação - Cenário 4

SD(EeC) SD(EeR) SD(EeHG)

1 0,000 0,000 0,000 2 2,000 1,847 1,803 3 2,016 1,863 1,857 4 0,000 0,000 0,000 5 0,000 0,000 0,000 6 0,000 0,000 0,000 7 0,000 0,000 0,000 8 2,020 1,870 1,675 9 0,000 0,000 0,000 10 0,000 0,000 0,000 11 0,000 0,000 0,000 12 0,000 0,000 0,000 13 0,000 0,000 0,000 14 0,000 0,000 0,000 15 0,000 0,000 0,000 16 0,000 0,000 0,000

(45)

Tabela 13 – Desvio-Padrão do Erro Total - Cenário 4

SD(EtC) SD(EtR) SD(EtHG)

1 1,023 1,023 1,023 2 1,751 1,567 1,515 3 1,738 1,555 1,549 4 0,997 0,997 0,997 5 0,997 0,997 0,997 6 0,984 0,984 0,984 7 0,998 0,998 0,998 8 1,742 1,570 1,337 9 1,004 1,004 1,004 10 1,009 1,009 1,009 11 1,025 1,025 1,025 12 1,000 1,000 1,000 13 1,002 1,002 1,002 14 0,993 0,993 0,993 15 1,003 1,003 1,003 16 1,004 1,004 1,004

Com relação ao desvio-padrão do Erro da estimação a Variância da parcela, a Posição das observações faltantes, a Quantidade de efeitos ativos e o Método de estimação foram considerados significativos.

Sabendo-se que as observações faltantes e suas estimativas são correlacionadas aos dados observados e a definição destes envolve a soma dos erros aleatórios, gerados considerando a variância da parcela, espera-se que este fator seja significativo para o Erro da estimação.

A posição das observações faltantes e o método afetam o Erro da estimação e logo afetam o desvio-padrão. Comparando os resultados do cenário 4 exibido nas Tabelas 12 e 13 com o cenário 7, no caso em que N, MP e NK são os efeitos ativos, dado nas Tabelas 14 e 15.

(46)

Tabela 14 – Desvio-padrão do Erro da Estimação - Cenário 7

SD(EtC) SD(EtR) SD(EtHG)

1 0,000 0,000 0,000 2 0,000 0,000 0,000 3 0,000 0,000 0,000 4 0,000 0,000 0,000 5 2,855 2,855 2,073 6 0,000 0,000 0,000 7 2,468 2,346 2,253 8 0,000 0,000 0,000 9 0,000 0,000 0,000 10 0,000 0,000 0,000 11 0,000 0,000 0,000 12 2,454 2,311 1,213 13 0,000 0,000 0,000 14 0,000 0,000 0,000 15 0,000 0,000 0,000 16 0,000 0,000 0,000

Tabela 15 – Desvio-Padrão do Erro Total - Cenário 7

SD(EtC) SD(EtR) SD(EtHG)

1 1,011 1,011 1,011 2 0,996 0,996 0,996 3 0,992 0,992 0,992 4 1,012 1,012 1,012 5 2,666 2,666 1,816 6 1,002 1,002 1,002 7 2,240 2,103 2,006 8 1,007 1,007 1,007 9 1,000 1,000 1,000 10 1,018 1,018 1,018 11 0,982 0,982 0,982 12 2,253 2,087 0,667 13 0,999 0,999 0,999 14 1,014 1,014 1,014 15 1,007 1,007 1,007 16 1,018 1,018 1,018

Em ambos os cenários a Variância da parcela é zero, já a posição das observações faltantes diferem. A diferença entre os resultados é evidente.

Observa-se que por terem Variância da parcela igual a zero nas posições em que não foram estimadas obsevações faltantes, o desvio-padrão do erro total varia pouco em torno do valor 1, como esperado. Porém observando as posições em que foram estimadas observações faltantes nota-se um aumento considerável do cenário 4 para o 7, tanto no

Referências

Documentos relacionados

De forma a solucionar tais problemas e incentivar o financiamento de investimento para setores nos quais o Governo Federal julga estratégicos da economia, foram

Mill considerava a Companhia das Índias Orientais como uma instituição quase providente na garantia do bom funcionamento do governo na Índia, pelo facto de

Então eu acho também bacana, Evelyn, de você trazer essa rede colaborativa para esse nível de escola de você trocar com seus pares, que não é aquela coisa nas portas, ficar

Vamos agora ver como estas derivadas parciais podem ser usadas para calcular o declive da superfície num ponto numa direcção qualquer, isto é, para calcular a..

Grande parte das professoras revela que apenas vê o PPP da unidade como um instrumento burocrático a ser entregue para a Secretaria de Educação no início do ano e não o utiliza

Os espectros de absorção obtidos na faixa do UV-Vis estão apresentados abaixo para as amostras sintetizadas com acetato de zinco e NaOH em comparação com a amostra ZnOref. A Figura

Figura 7 Pupunha após ser triturada e despolpada, amarela (A) e vermelha (B) 18 Figura 8 Amostras dispostas em bandejas na estufa para secagem 18 Figura 9 Extrusora dupla rosca,

Neste trabalho, experimentos de adsorção dos hormônios 17β-estradiol e 17α-etinilestradiol de soluções aquosas pela turfa foram