O planejamento experimental do tipo split-plot e a regressão por PLS

split-plot para o estudo da homogeneidade de fármaco em filmes

2. O planejamento experimental do tipo split-plot e a regressão por PLS

Planejamentos experimentais do tipo split-plot possuem a característica de blocagem dos experimentos, ou seja, a execução dos experimentos não ocorre de forma totalmente aleatória, como acontece por exemplo nos planejamentos do tipo fatorial, Box- Benhken, etc, mas na forma de blocos ordenados. A matriz de planejamento X não difere da matriz de outros tipos de planejamento em termos de definição, apenas a execução dos experimentos não é feita de forma totalmente aleatória neste tipo de planejamento. As

combinações das variáveis que definem os blocos são denominadas main-plots, enquanto que as combinações das variáveis contidas em cada bloco são os subplots. A aleatorização de experimentos em planejamentos split-plot ocorre apenas dentro de cada bloco, ou então quando na escolha do bloco de experimentos a serem realizados. Este tipo de planejamento é preferido principalmente em casos em que a completa aleatorização de todos os experimentos é inviável, seja do ponto de vista experimental ou econômico, por exemplo. A realização de experimentos em blocos resulta na ocorrência de duas fontes de variância dos erros, σ2MP e σ2SP, referentes ao

main-plot e ao subplot, respectivamente (Jones e Nachtsheim, 2009) (Borges et al., 2007) (Næs

et al., 2007).

Planejamentos split-plot são muito utilizados na modelagem de experimentos envolvendo simultaneamente variáveis de processo e de mistura, sendo as variáveis de processo geralmente de mais difícil manipulação, portanto designadas no main-plot, enquanto que as variáveis de mistura compõem os subplots (Reis et al., 1998). Por exemplo, em um planejamento split-plot contendo 2 variáveis de processo (zi, zj) e três variáveis de mistura (xk, xl, xm), os níveis das variáveis no main-plot (processo) são definidos conforme um planejamento fatorial completo 22_{, no qual em cada combinação (zi, zj) existirá um grupo contendo os}

diferentes níveis das variáveis de mistura (xk, xl, xm), Fig. 22.

Figura 22. Esquema de um planejamento split-plot envolvendo 2 variáveis de processo (planejamento fatorial 22) e 3 variáveis de mistura (planejamento simplex centróide completo). As combinações entre as variáveis de processo foram designadas como main-plots e entre as de mistura subplots.

O planejamento da Fig. 22 pode ser modelado utilizando a eq. 14, determinando-se assim as magnitudes dos efeitos das variáveis de processo (i,j) e mistura (k,l,m), e suas interações, na explicação da variância do vetor de respostas y.



 _i _j _ij _k _l _m _MP _SP

ijklm

z

x

y

          (14)

em que µ é o intercepto do modelo, z(i ou j) são os efeitos referentes às variáveis de processo, zij é o efeito de interação processo-processo e W corresponde a todos os efeitos de interação mistura-mistura e processo-mistura.

A eq. 14 também pode ser transformada na forma matricial, na qual os níveis das variáveis do planejamento estarão definidos na matriz de planejamento X, e seus respectivos efeitos representados nos coeficientes de regressão definidos em b (eq. 15).

y = bX + σMP + σSP (15)

Os coeficientes de regressão em b, na eq. 15 geralmente são determinados utilizando a equação de mínimos quadrados generalizados (Generalized Least Squares, GLS) b = (XT_V−1_X)−1_XT_V−1_{y quando em planejamentos split-plot balanceados, i.e. contendo os}

mesmos número de níveis de subplot em cada main-plot, sendo V é uma matriz diagonal cujos elementos são combinações apropriadas de σ2

MP e σ2SP. As variâncias dos erros podem ser

determinadas por ANOVA quando são utilizadas replicatas para todos os experimentos do planejamento; no entanto, é evidente que esta tarefa torna-se inviável no caso de um planejamento envolvendo muitos experimentos (Metzler, 1991). Planejamentos split-plot não totalmente replicados também já foram propostos na literatura, de forma que as variâncias dos erros são determinadas utilizando replicatas adicionais (Kowalski et al., 2002).

Embora a regressão por GLS seja adequada para a modelagem multivariada de planejamentos nos quais existam mais de uma fonte de variância do erro, esta operação está sujeita a limitações matemáticas quando no cálculo da inversa (XT_V−1_X)−1_{, caso ocorra alta}

colinearidade entre as variáveis em X. Como a ocorrência da colinearidade



x(i)1(x é a fração de cada composto i na mistura) é inevitável em planejamentos envolvendo variáveis de mistura, a utilização de métodos de regressão multivariados que possam eliminar esse efeito da colinearidade é interessante. Neste contexto, a regressão de matrizes de planejamento experimental utilizando PLS vem se apresentando como uma alternativa aos métodos tradicionais (i.e. OLS, GLS, etc) em planejamentos envolvendo misturas não totalmente ortogonais. No caso de um planejamento do tipo split-plot, a utilização da regressão por PLS

não torna a interpretação do modelo mais complicada em relação aos demais métodos, porque não há distinção entre variáveis de processo e mistura. A matriz X é pré-processada com autoescalamento, resultando em coeficientes de regressão do modelo (bPLS) que representam a

influência de cada variável nas respostas y com relação ao ponto central do planejamento. Assim como em dados de espectroscopia, a validação cruzada é etapa fundamental para a escolha do número de variáveis latentes apropriado para o modelo (Kettaneh-Wold, 1992) (Eriksson et al., 1998). No algoritmo SIMPLS, os coeficientes de regressão do modelo são calculados pela equação bPLS = RQT, em que R e Q são as matrizes dos pesos e loadings não

normalizados de y, respectivamente (de Jong, 1993). Como o produto RRT_{pode ser}

considerado uma aproximação satisfatória da matriz de covariância dos coeficientes de regressão do modelo, então a variância do erro dos coeficientes de regressão pode ser determinada utilizando a eq. 16 (Faber, 2002).

var(bPLS) = RRTσ2 (16)

É importante ressaltar que a eq. 16 é apenas uma aproximação mais simplificada da variância dos erros dos coeficientes de regressão do modelo. Outras abordagens baseadas em algoritmos de reamostragem, como por exemplo o bootstrap e o jack-knifing, ou então matematicamente mais complexas utilizando cálculos de Jacobianos, também são opções encontradas na literatura para a determinação da variância dos coeficientes de regressão em modelos PLS (Zhang e Garcia-Munoz, 2009). Além disso, a eq. 16 considera apenas uma única variância σ2 do erro experimental, geralmente definido como o erro de calibração ou de validação cruzada (i.e. RMSE(C/CV)) do modelo (Faber, 2002). No caso de planejamentos

split-plot, σ2 pode ser considerado como (σ2MP + σ2SP) em casos nos quais σ2SP é o mesmo para

todos os subplots.

No documento Explorando a espectroscopia de imagem no infravermelho e a quimiometria como ferramenta analítica em aplicações farmacêuticas (páginas 78-81)