CONSTRUÇÃO DOS MODELOS ANÁLISE MULTIVARIADA

4. MATERIAIS E MÉTODOS

4.7. CONSTRUÇÃO DOS MODELOS ANÁLISE MULTIVARIADA

Antes da construção dos modelos, foi feita a detecção de amostras anômalas e a seleção das amostras que constituíram os conjuntos de calibração e previsão, através da PCA e da HCA, disponíveis no programa Pirouette® versão 3.11. A seguir, foi construído o modelo global utilizando PLS empregando toda a faixa espectral. Por fim, foram construídos os modelos de calibração através de 2 diferentes algoritmos: iPLS e siPLS, disponíveis no pacote “iToolbox” versão 2, desenvolvido por Lars NorgaardF

102

para ambiente MATLAB®.

4.7.1. Detecção de amostras anômalas

Para assegurar a qualidade dos conjuntos de calibração e previsão, foi feita a detecção de amostras anômalas. Para tal procedimento, foi utilizada a PCA, através da análise do gráfico dos resíduos de Student vs. a distância de MahalanobisF

117

F , o qual permite verificar a influência de cada amostra em particular no modelo. Amostras com alto resíduo foram descartadas.

4.7.2 Seleção das amostras dos conjuntos de calibração e previsão

A seleção das amostras para constituição dos conjuntos de calibração e previsão teve dois objetivos principais: construir conjuntos que contenham a informação da matriz de dados utilizados neste estudo e que contenha a maior variabilidade possível em relação à faixa de concentração.

Para a seleção das amostras que constituíram os conjuntos de calibração e previsão foi adotado o seguinte procedimento:

a) Produção de amostras sintéticas com excipientes considerados “universais” (presentes nas misturas das formulações de comprimidos disponíveis no mercado). Os excipientes escolhidos foram amido e estearato de magnésio, na proporção de 99+1. A mistura contendo sulfametoxazol e trimetoprima foi completada até 1 grama, com a mistura de excipientes.

b) Aplicação do algoritmo HCA, para o conjunto formado por amostras sintéticas e amostras comerciais. Esta etapa de seleção para os conjuntos de calibração e previsão foi feita através da observação da similaridade entre as

102_{Norgaard, L. et al., Appl. Spectrosc. 54 (2000) 413-419.} 117_{Pirouette, Multivariate Data Analysis, versão 3.11, Infometrix.}

amostras (dendrograma), fornecido pela HCA. Dentre os grupos similares fornecidos pelo HCA (índice de similaridade de 0,5) foi selecionada, no mínimo, uma amostra para compor o conjunto de previsão. O critério para seleção das amostras sintéticas em cada grupo foi a informação contida na variável Y, referente à concentração das amostras. Assim, foram selecionadas amostras com valores intermediários de concentração para o conjunto de previsão, a fim de garantir que as amostras com valores extremos estariam presentes no conjunto de calibração. Para amostras comerciais similares, o critério de escolha adotado foi a inclusão de amostras do mesmo fabricante, porém lotes diferentes em cada conjunto.

O conjunto de calibração foi formado por 32 amostras sintéticas e 9 amostras comerciais e o conjunto de previsão por 17 amostras sintéticas e 6 amostras comerciais. Para as amostras produzidas no laboratório, as substâncias ativas foram manipuladas de forma a obter um conjunto com diferentes concentrações, através de pesagem e diluição com excipiente. Os conjuntos de calibração e previsão assim definidos foram utilizados para o desenvolvimento dos modelos por ATR-FTIR e DRIFTS.

10B

4.7.3. Desenvolvimento dos modelos para a determinação de sulfametoxazol e trimetoprima

O desenvolvimento dos modelos de calibração para a determinação do SMZ e TMP nas amostras foi dividido em 3 etapas. Na primeira etapa foi testado o tratamento MSC associado aos pré-processamentos autoescalado e centrado na média, na construção de modelos utilizando PLS e todas as variáveis independentes (item 4.7.3.1). Um teste F (95% de confiança) foi aplicado para fim de comparação entre os erros de previsão obtidos para os diferentes modelos. Na segunda etapa foram utilizados os algoritmos iPLS e siPLS para a seleção dos números de onda correlacionados com os fármacos (item 4.7.3.2) e na terceira etapa, os melhores modelos foram escolhidos a partir dos valores de RMSECV, RMSEP e R2 (item 4.7.3.3). Nesta etapa foi aplicado um teste F (95% de confiança) para comparação entre os erros de previsão dos modelos escolhidos.

O número de VL escolhida para cada modelo foi baseado no menor RMSECV, o qual não apresentava diferença na ordem de grandeza em relação ao RMSECV atribuído a VL anterior.

11B

4.7.3.1. Testes preliminares e obtenção do modelo global PLS

O modelo global foi constituído a partir do espectro inteiro e foi testado como recurso de tratamento dos dados, o MSC. Como pré-processamentos foram avaliados, os dados centrados na média e autoescalados. Foram obtidos cinco modelos para cada fármaco, dos quais foi escolhido o modelo com menores valores de RMSECV, RMSEP e maior valor de R2. Para evitar sobreajuste (“overfitting”) preferiram-se modelos com valores de RMSECV e RMSEP semelhantes. O mesmo tratamento e o mesmo pré-processamento foram adotados para todos os modelos desenvolvidos no estudo, o que permitiu a comparação posterior entre estes.

12B

4.7.3.2. Método de seleção de variáveis

As variáveis espectrais foram selecionadas através do emprego dos métodos de seleção de variáveis, iPLS e siPLS.

Na etapa de seleção de variáveis, tanto nos modelos iPLS, quanto nos modelos siPLS, os espectros foram divididos em 10, 25 e 50 intervalos. Quando da aplicação do siPLS, foram combinados até 5 intervalos para os modelos construídos por divisão do espectro em 10 intervalos. Para os modelos construídos por divisão do espectro em 25 e 50 intervalos, foram combinados até 3 intervalos (combinações possíveis para 4 e 5 intervalos não foram adotadas devido ao tempo necessário para construção dos modelos).

A rotina dos algoritmos iPLS e siPLS gera informações gráficas, indicando o número de variáveis latentes usadas em cada intervalo e os valores de RMSECV. O subintervalo que apresenta o menor valor de RMSECV deve ser selecionado para posterior comparação com valores de RMSECV de modelos construídos com a informação de toda a faixa espectral (modelo global PLS)F

102

4.7.3.3. Avaliação dos modelos obtidos

Os modelos foram avaliados em termos do número de variáveis latentes (VLs), RMSECV, RMSEP102 e, por fim, através do coeficiente de determinação entre valores previstos e medidos do conjunto de calibração (R2cal).

As regiões com valores de RMSECV menores que o modelo global PLS foram selecionadas para a construção dos diferentes modelos, sendo posteriormente,

comparadas com a eficiência do modelo global. O desempenho dos modelos escolhidos foi avaliado através do erro padrão relativo de previsão (RSEP).

O erro sistemático (“bias”) foi calculado para as amostras do conjunto de previsão e avaliado sua significância através do teste t. A determinação da significância do erro sistemático foi também aplicada, de maneira independente, para o subconjunto de amostras comerciais, presentes no conjunto de previsão. Este procedimento teve por objetivo avaliar a capacidade do modelo desenvolvido em fazer a previsão destas amostras, já que as mesmas possuem uma matriz mais complexa (excipientes variados) quando comparadas com as amostras sintéticas, o que poderia ocasionar tendênciaF

A repetibilidade dos métodos propostos foi avaliada através do cálculo da precisãoF

F, para 3 concentrações diferentes de amostras sintéticas (3 replicatas).

13B

4.7.4 Comparação entre os modelos de calibração através de testes de significância

O teste F (95% de confiança) foi aplicado para avaliar a diferença entre os modelos desenvolvidos para cada técnica separadamente (ATR-FTIR e DRIFTS), com o objetivo de selecionar, entre os que apresentavam erros de previsão sem diferença significativa, àquele(s) que apresentava(m) menor RMSEP.

Em uma segunda etapa, o teste F (95% de confiança) foi aplicado para comparar os erros obtidos entre os modelos escolhidos, com o objetivo de avaliar se havia diferença entre as duas metodologias propostas.

Os resultados obtidos para a previsão das amostras foram também avaliados em relação à concordância com a variação permitida pelos códigos oficiais. Neste estudo, foi adotada a variação permitida pela Farmacopéia Brasileira 4ª ediçãoF

F , a qual estabelece que comprimidos contendo SMZ e TMP não devam apresentar teores abaixo de 93% e acima de 107% do valor nominal. O valor obtido por HPLC foi adotado como valor nominal (em razão de ser esta a informação fornecida para a construção dos modelos por PLS) e a variação para os valores obtidos por DRIFTS e por ATR-FTIR foi calculada a partir deste valor nominal.

Um teste t pareado (95% de confiança) foi aplicado com o objetivo de comparar cada metodologia proposta com o método de referência.

77_{Iturriaga, H. et al., Analyst (2001) 1135-1141.}

29_{Braga, J. W. B.;, Poppi, R. J., Quim. Nova, 27 (6) (2004) 1004-1011.} 50_{Farmacopéia Brasileira: parte II, quarto fascículo. 4. ed, 2003.}

No documento Determinação simultânea de sulfametoxazol e trimetoprima em formulações farmacêuticas por ATR-FTIR e DRIFTS empregando calibração multivariada (páginas 73-77)