Modelagem do planejamento experimental split-plot

Projections to Latent Structures)

7. Resultados e discussão

7.2. Modelagem do planejamento experimental split-plot

A regressão multivariada do planejamento split-plot foi inicialmente computada na matriz X considerando o modelo de processo e mistura definido pela eq. 17, totalizando 30 termos. O melhor modelo, obtido por regressão por PLS, foi calculado utilizando apenas 1 VL, explicando não mais que 64% da variância dos dados em y. As replicatas adicionais no ponto central do planejamento resultaram em σ2 = 0,036.

A importância das variáveis para o modelo foi analisada através dos valores dos respectivos parâmetros VIP (Variable Importance on Projections) e dos coeficientes de regressão. O VIP é calculado para cada variável através da soma dos pesos dessa variável em

todas as VLs do modelo PLS, ponderada pela variância explicada de cada VL para a regressão; portanto, a importância deste parâmetro na variável é avaliada considerando a magnitude dos valores dos respectivos pesos desta variável nas VLs, mas sem desconsiderar a relevância de cada VL para a regressão. Desta forma, o VIP demonstra a importância de cada variável para a modelagem de X, enquanto que os coeficientes de regressão das variáveis no modelo expressarão a melhor correlação dessas variáveis com y (respostas) (Wold et al., 2001). Os valores de VIP e coeficientes de regressão de cada variável no modelo PLS calculado conforme a eq. 17 (30 termos) estão na Fig. 25. A análise dos valores de VIP geralmente é realizada considerando o limite padrão VIP = 1, que corresponde à média aritmética dos valores de VIP de todas as variáveis de X. Assim, em geral, variáveis cujos VIPs são maiores que 1 são mais importantes para explicar a variância de X do que as variáveis no qual VIP < 1.

Figura 25. Parâmetros VIP e coeficientes de regressão do modelo PLS (1 VL) calculado na matriz de planejamento X completa (30 termos).

A inspeção dos valores de VIPs demonstra que apenas 9 das 30 variáveis do planejamento completo apresentam valores de VIP > 1: DRUG, DRUG*hpmc, DRUG*peg, TEMP*hpmc, DRUG*hpmc*peg, DRUG*pvp*peg, DRUG*hpmc*pvp*peg, DRUG*TEMP*hpmc e DRUG*TEMP*hpmc*pvp. A maior magnitude dos valores de VIPs dessas variáveis em comparação com as demais variáveis (i.e. aquelas cujos VIPs são menores que 1) enfatiza a maior importância das variáveis selecionadas na modelagem de X. Portanto, a “regra geral” VIP > 1 pôde ser utilizada com sucesso para a primeira seleção das variáveis mais relevantes deste planejamento. Além disso, a alta correlação das variáveis selecionadas com y, conforme se verifica nos valores dos coeficientes de regressão do modelo, é outra evidência da maior relevância dessas variáveis na modelagem do planejamento.

Após a análise dos valores de VIP e coeficientes de regressão, as 21 variáveis consideradas não relevantes para a modelagem do planejamento foram excluídas de X, obtendo- se então uma nova matriz de planejamento X2 contendo apenas as 9 variáveis selecionadas com base nos gráficos da Fig. 25. Então, um novo modelo PLS foi ajustado correlacionando X2 com y. O resultado foi um aumento tanto na robustez do modelo (menor RMSECV) como também nas variâncias explicadas em X2 e em y, em relação ao modelo anterior, Tabela 8, cujos resultados podem ser atribuídos, principalmente, ao acréscimo de uma VL no segundo modelo.

Tabela 8. Variância explicada em X/X2 (%var-X/X2), em y (%var-y) e erro de validação cruzada (RMSECV) dos modelos PLS calculados dos dados do planejamento split-plot

Modelo PLS completo (30 termos) – 1VL Modelo PLS em X2 (9 termos) – 2VLs %var-X/X2 11,06 48,32 %var-y 63,89 74,15 RMSECV 0,230 0,180

Embora seja inequívoca a significativa melhora na modelagem dos dados após a exclusão das variáveis que não são importantes para o planejamento, os parâmetros VIPs e os coeficientes de regressão da regressão PLS em X2 foram reanalisados, uma vez que interpretações mal sucedidas de planejamentos experimentais podem ocorrer quando na ausência apenas das variáveis que são relevantes para a modelagem dos dados. Devido à expressiva redução do número de variáveis em X2, a utilização da “regra geral” VIP > 1 para a

interpretação da importância das variáveis no segundo modelo não foi seguida à risca, conforme ocorreu quando na regressão por PLS de X. O motivo é o risco iminente de exclusão de variáveis importantes para o planejamento, embora com valores de VIP < 1, que pode ocorrer em virtude do menor intervalo de valores de VIP calculados que passa a ocorrer quando na regressão utilizando um número menor de variáveis. Desta forma, a importância das variáveis em X2 foi averiguada através da evolução de modelos PLS calculados após a exclusão uma-a- uma das variáveis menos importantes após cada regressão. Este procedimento foi realizado de forma sistemática até que o modelo mais simples fosse obtido, no qual apenas as variáveis relevantes para a regressão fossem mantidas na matriz de planejamento:

1. Exclusão da variável com coeficiente de regressão não significativo na matriz de planejamento correspondente.

2. Em caso de todos os coeficientes de regressão sendo significativos, a variável com o menor valor de VIP foi excluída da matriz de planejamento.

Após a execução de cada um dos passos acima (1 ou 2), um novo modelo de regressão por PLS foi ajustado à matriz de planejamento correspondente, e a evolução do desempenho dos modelos foi confirmada em função da estabilização ou declínio do RMSECV, assim como do crescimento das variâncias explicadas na matriz de planejamento sem que o ajuste do modelo fosse prejudicado (i.e. sem diminuição da variância explicada em y). Após a realização deste procedimento de seleção de variáveis para o planejamento, o melhor modelo PLS foi obtido utilizando 2 VLs, após a exclusão de mais 3 variáveis de X2: DRUG*hpmc*pvp*peg, DRUG*pvp*peg e DRUG*hpmc*pvp. Os desempenhos dos modelos PLS após a exclusão de cada uma das variáveis acima, confirmando a menor relevância dessas variáveis para a modelagem do planejamento, podem ser verificadas na Fig. 26.

Figura 26. Evolução do RMSECV e variâncias explicadas em nas matrizes de planejamento (entre parênteses) e y de modelos PLS calculados após a exclusão das variáveis não relevantes para o planejamento. Modelos: 1(regressão PLS em X2 - 2VLs, 9 termos), 2(exclusão de DRUG*hpmc*pvp*peg – 2VLs, 8 termos), 3(exclusão de DRUG*pvp*peg – 2VLs, 7 termos), 4(exclusão de DRUG*hpmc*pvp – 2VLs, 6 termos).

A equação do modelo PLS final do planejamento experimental split-plot, contendo os 6 termos relevantes está descrita na Eq. 20.

y = 0,24(±0,12)*DRUG + 0,24(±0,09)*DRUG*hpmc + 0,22(±0,09)*DRUG*peg +

0,37(±0,17)*TEMP*hpmc + 0,31(±0,10)*TEMP*DRUG*hpmc +

0,29(±0,10)*TEMP*DRUG*hpmc*pvp (20)

As condições de processo (expressas através das variáveis DRUG e TEMP) exerceram importante influência nas respostas y, principalmente a variável DRUG. No entanto, o aumento da heterogeneidade das imagens químicas foi governado majoritariamente por fatores de interação entre variáveis de processo e mistura. Dentre os polímeros, o conteúdo de HPMC (variável hpmc) exerceu a maior influência para o aumento da heterogeneidade do fármaco nos filmes. O gráfico dos escores no espaço das VLs mostrou ausência de outliers (nível de confiança de 95%), atestando a qualidade do modelo em explicar os dados do

planejamento. Além disso, o evidente agrupamento das amostras neste gráfico conforme os respectivos níveis da variável DRUG demonstra a destacada importância da quantidade do fármaco nos filmes para explicar a heterogeneidade das imagens químicas, Fig. 27-a). A não relevância das variáveis excluídas para a modelagem do planejamento experimental também pode ser confirmada através da análise dos gráficos dos resíduos, Fig. 27-b, em que um melhor ajuste das respostas foi obtido no modelo PLS final contendo apenas as 6 variáveis importantes. O gráfico das respostas previstas pelo último modelo PLS versus respostas de referência está na Fig. 28.

Figura 27. a) Gráfico dos escores do modelo PLS final. Os valores entre parênteses correspondem às variâncias explicadas pelas respectivas VLs. O círculo tracejado consiste no limite t-Hotteling em α = 0,05. Amostras com níveis da variável DRUG = -1 (○) e +1 (●). b) Gráfico dos resíduos studentizados dos modelos PLS calculados conforme a eq. 17 (PLS completo) e contendo apenas as 6 variáveis relevantes para o planejamento (PLS final).

Como já descrito no item 3, a interpretação dos coeficientes de regressão em modelos PLS requer cautela em decorrência das misturas das variâncias sistemáticas correlacionadas, que são exclusivamente responsáveis pelo entendimento matemático do planejamento, e ortogonais às respostas em y. A maior parte da variância ortogonal a y no planejamento split-plot contendo apenas as 6 variáveis mais importantes (eq. 20) foi separada da variância correlacionada a y utilizando a regressão por OPLS. A importância de cada uma das variáveis nas componentes y-correlacionadas e y-ortogonais está expressa no gráfico dos respectivos pesos do modelo OPLS calculado utilizando 2 VLs, Fig. 29.

Figura 28. Gráfico dos valores previstos versus reais do modelo PLS (r2 = 0,741) ajustado à matriz de planejamento contendo apenas os termos relevantes (6 variáveis).

O modelo OPLS foi calculado utilizando apenas 2 VLs para que a interpretação dos fatores para a variância correlacionada a y fosse feita de forma comparável ao modelo PLS, pois ambos fornecem a mesma previsão de y quando contruídos utilizando o mesmo número de VLs. Portanto, embora ambos os métodos de regressão (i.e. PLS versus OPLS) forneçam as mesmas previsões das respostas do planejamento, a interpretação das variáveis será mais “correta” no modelo OPLS devido à separação dos diferentes tipos de variâncias.

A importância de cada variável na variância correlacionada a y é expressa quantitativamente na Fig. 29 através da projeção dos pesos no eixo w[1], revelando, por exemplo, a menor ou maior importância das variáveis TEMP*hpmc e DRUG, respectivamente, nessa componente. É importante ressaltar que a variável TEMP*hpmc possui o maior valor de coeficiente de regressão no modelo PLS calculado de acordo com a eq. 20. Portanto, embora na regressão por PLS este termo apresente a maior contribuição para a regressão, na verdade essa variável apresenta grande contribuição de variância ortogonal a y misturada com a variância correlacionada, cuja intensidade é expressivamente menor. Esta conclusão pode ser confirmada através da maior intensidade do peso de TEMP*hpmc em wo[1]. Além disso, a importante contribuição da variável DRUG para a componente correlacionada a y fornecida pelo modelo OPLS também pode ser vista, de uma forma menos explícita, no agrupamento dos

escores encontrado na Fig. 27-a. As variáveis TEMP*DRUG*hpmc*pvp e TEMP*DRUG*hpmc apresentaram maiores contribuições na componente correlacionada a y em relação à componente ortogonal; portanto, apenas para essas variáveis as interpretações quanto a suas respectivas contribuições para o planejamento serão as mais convergentes quando comparadas em ambos os modelos PLS e OPLS.

Figura 29. Gráfico dos pesos do modelo OPLS, calculado da matriz de planejamento contendo apenas as variáveis mais importantes utilizando 2 VLs, das componentes correlacionadas (w[1]) e ortogonais (wo[1]) a y. Os valores entre parênteses são as variâncias explicadas de cada componente.

8. Conclusões

As imagens químicas dos filmes poliméricos contendo PAR forneceram evidências confiáveis da importância da composição das formulações e das condições de preparação, especificamente a quantidade do fármaco nas formulações e a temperatura de cura, sobre a distribuição do fármaco ao longo da superfície das formulações. Algumas observações mais relevantes relacionadas com a influência dos principais fatores experimentais para a distribuição do fármaco foram obtidas diretamente a partir da inspeção visual das imagens

químicas das formulações. No entanto, uma visão mais detalhada acerca de todos os fatores, principalmente as interações entre as variáveis, só foi obtida com a utilização de estratégia de planejamento experimental juntamente com a análise de macropixels.

A análise dos parâmetros dos modelos PLS foi uma abordagem de sucesso na interpretação das variáveis do planejamento experimental. O conjunto de informações que puderam ser extraídas dos modelos, como as variâncias explicadas nas matrizes dos dados e em y, valores de RMSECV, parâmetros VIPs, coeficientes de regressão e dos gráficos dos escores e resíduos foram essenciais para que todos as variáveis não relevantes para o planejamento fossem excluídas de forma segura e, consequentemente, a análise correta do planejamento fosse feita apenas com as variáveis importantes para a modelagem. Além disso, a interpretação mais correta da influência das variáveis relevantes apenas para a variância correlacionada a y foi obtida com a utilização da regressão por OPLS, permitindo assim um melhor entendimento do planejamento como um todo.

Finalmente, este estudo revelou uma nova abordagem para estudo da distribuição de compostos na superfície de formulações farmacêuticas sólidas a partir de dados de espectroscopia de imagem, na qual estratégia de análise de macropixels atrelada a conceitos de planejamento experimental pode ser explorada com sucesso.

CAPÍTULO IV

Determinação quantitativa por seleção de variáveis utilizando

No documento Explorando a espectroscopia de imagem no infravermelho e a quimiometria como ferramenta analítica em aplicações farmacêuticas (páginas 91-100)