• Nenhum resultado encontrado

7. Estatística para a modelação matemática e análise comparativa

7.3. Critérios de ajustamento de modelos (“goodness of fit tests”)

Em regressão não linear, uma vez que as equações do modelo são resolvidas de forma iterativa, o resultado pode variar consoante as estimativas iniciais que se fornecem ao algoritmo de minimização. Outro problema relacionado com o processo iterativo é a necessidade de saber quando parar este método. Normalmente, os algoritmos de minimização param quando já não há capacidade de fazer variar o valor do parâmetro em análise. Por vezes, especialmente se as estimativas iniciais não forem bem escolhidas, o algoritmo de ajustamento pára num local em que os valores dos parâmetros não produzem gráficos adequados aos dados experimentais. Quando tal ocorre, diz-se que se convergiu para um mínimo local. Os mínimos locais são locais no espaço paramétrico em que se processa a convergência, mas em que alterando de forma significativa um ou mais parâmetros ainda se consegue um resultado melhor[123, 124] (Figura 2.18).

103 Modelação matemática de variáveis biológicas transcutâneas

Figura 2.18 - Representação gráfica da superfície dos gradientes obtidos num problema de

regressão não linear utilizando o algoritmo GRG2. (Adaptado da referência [123])

Para evitar estes problemas, mostra-se necessário correr os algoritmos de ajustamento várias vezes, com estimativas iniciais diferentes e verificar qual o melhor resultado, nomeadamente pelo menor valor da soma dos quadrados dos resíduos. Será também necessário averiguar a qualidade de ajustamento do modelo aos dados experimentais.

Existem diferentes métodos para realizar este processo, mas os mais frequentes são o cálculo do R2,

a inspecção do valor da soma do quadrado dos resíduos (no caso do modelo ter o mesmo número de parâmetros), do cálculo de um critério de informação (p.ex. o AKAIKE) e da inspecção dos gráficos de resíduos[125-127].

R2[124]

O valor do R2 é, talvez, o método mais utilizado para inspeccionar a qualidade de ajustamento de

um modelo a um conjunto de dados experimentais. A sua formulação encontra-se discriminada na equação 2.68.

SQT SQR

104 Modelação matemática de variáveis biológicas transcutâneas em que SQR é a soma dos quadrados dos resíduos e SQT é a soma dos quadrados total.

Ou seja o valor de R2 representa a proporção de variação explicada pelo modelo. Um valor de R2

próximo de 1 significa que o modelo descreve, aproximadamente, os dados experimentais. No entanto, este valor é, frequentemente, mal utilizado, sobretudo pela importância que a ele se dá. Uma forma de artificialmente aumentar o valor do R2 é adicionar mais parâmetros a um modelo

matemático, assim o modelo consegue descrever melhor os dados experimentais, resultando em sobreparametrização e, consequentemente, significando que o modelo não será o mais adequado. Por este motivo, não se deve utilizar apenas o valor de R2 para verificar a qualidade de ajustamento

dos modelos.

Critério de informação de AKAIKE (AIC)[125, 127]

O critério de AKAIKE (AIC) consiste num critério de informação, que expressa numericamente a quantidade de informação em função do número de parâmetros que existem, numa determinada equação, que representa um grupo de dados experimentais. Esta equação assume que os erros aleatórios obedecem a uma distribuição normal. Nestas condições, o Critério de AKAIKE é definido por:

AIC = N In Re + 2p equação 2.69

Em que, N é o número de pontos experimentais, p é o número de parâmetros e Re é a soma dos quadrados dos resíduos que se obtêm entre os pontos experimentais e os dados fornecidos pelo modelo.

Para os mesmos dados experimentais, o modelo que melhor descreve a evolução desses dados será então aquele que apresentar o menor valor numérico de AIC. Quando a soma dos quadrados dos resíduos é semelhante para os dois modelos, escolhe-se aquele que apresentar menos parâmetros, de acordo com o “princípio da parcimónia”.

Resíduos padronizados vs. Resíduos normais

Outra das formas de avaliar a qualidade do ajustamento dos modelos matemáticos é a inspecção gráfica dos resíduos.

105 Modelação matemática de variáveis biológicas transcutâneas Se o método de regressão utilizado for o dos mínimos quadrados, então os resíduos experimentais,

ou seja os valores de

 −

^ i

Y

Y

podem ser colocados num gráfico contra os valores de X (Figura

2.19).

Figura 2.19 - Vários tipos de resíduos de regressão. a) Resíduos normais, b) Resíduos

heterocedásticos, c e d) Resíduos indiciando modelos mal adaptados aos dados experimentais. (Adaptado da referência [128])

Se existir homocedasticidade, então os resíduos deverão distribuir-se uniformemente em torno do valor zero. Existem situações tipo, na análise de resíduos, que é importante conhecer. Se, por exemplo, os resíduos seguirem uma forma de hipérbole, normalmente tal significa a falta de um termo exponencial no modelo, ou seja, que a relação entre X e Y não é explicada pelo modelo utilizado. Por outro lado, se, por exemplo, os resíduos seguirem uma forma de funil, tal significa heterocedasticidade dos dados, o que viola um dos pressupostos da regressão, determinando a transformação dos dados experimentais, para que tenham uma variância constante[128, 129]. A

transformação mais corrente implica a ponderação dos dados, atribuindo-se maior peso àqueles que se sabe serem os mais exactos. Neste caso, só a experimentação com os dados reais poderá indicar qual a melhor função de ponderação. Alguns autores utilizam o inverso da variância ao quadrado como função de ponderação[119, 120, 130, 131].

106 Modelação matemática de variáveis biológicas transcutâneas Outro aspecto a ter em consideração na análise de resíduos é a sua normalização. Frequentemente, os resíduos ordinários encontram-se correlacionados com a variância do próprio modelo, pelo que se torna difícil detectar os desvios dos pressupostos envolvidos na regressão. Uma forma de contornar este processo é analisar resíduos calculados com a mesma precisão, através da sua padronização ou “Studentização”. Estes resíduos têm média igual a zero e desvio padrão igual a 1, tornando-se um instrumento precioso na análise da regressão. Devido ao facto de seguirem uma distribuição de Student (t), pode criar-se uma regra para considerar como aceitáveis o conjunto de valores de resíduos. Esta regra indica que qualquer resíduo padronizado superior a 3 ou inferior a -3 será um valor de pior ajustamento[124]. Qualquer série de dados que apresente um grande conjunto

destes resíduos significará um modelo fracamente ajustado, com fraca capacidade de descrição dos dados experimentais[128, 130, 131].

Outro aspecto a considerar é a forma como os resíduos se encontram distribuídos. Para que a regressão tenha sido bem realizada, os resíduos devem distribuir-se aleatoriamente acima e abaixo do valor zero. Ou seja, não deve existir um padrão da distribuição dos resíduos. Para confirmar este pressuposto, mostra-se necessário realizar um teste de sequências que testa o número de alternâncias que existe nos resíduos. Um resultado significativo neste teste indica um padrão na forma como os resíduos se distribuem em torno de zero, indicando uma menor qualidade do ajustamento

107 Modelação matemática de variáveis biológicas transcutâneas

8. Tratamento dos dados experimentais