Premissas - - PROCEDIMENTO PARA VALIDAÇÃO

CAPÍTULO I - PROCEDIMENTO PARA VALIDAÇÃO

2.1 LINEARIDADE

2.1.3 Premissas

O método utilizado para análise de dados é o MMQO. O ajuste de uma equação de calibração pelo MMQO assume várias premissas relativas aos resíduos da regressão e ao modelo: i) os resíduos são variáveis aleatórias com média zero E( )ε_i =0 e variância

( )_i 2

V ε =σ constante e desconhecida; ii) os resíduos são variáveis normalmente distribuídas ε_i ∼N(0,σ²); iii) os resíduos são homoscedásticos, com distribuição constante ao longo dos valores de X_i; iv) o resíduo de uma observação ε_i não é correlacionado com o resíduo em outra observação ε_j, ou seja, cov( ,ε ε_i _j)=0 sendo i≠ j. Os resíduos não são apenas não correlacionados, mas independentes; e v) a relação entre X_i e Y_i é linear (DRAPER & SMITH, 1998).

Algumas possíveis violações a estas premissas encontram-se na possibilidade de haver valores extremos no conjunto de dados, dos resíduos da regressão não seguirem a distribuição normal, não apresentarem variância constante (heteroscedasticidade), não serem independentes (autocorrelação) e a função não seguir o modelo linear (SNEDECOR & COCHRAM, 1989).

Inspeção visual de gráficos

A análise dos gráficos x-y (GREEN, 1996; ICH, 1996; ISO, 1996; NATA, 1997;

EURACHEM, 1998; HUBER, 1998; THOMPSON, ELLISON & WOOD, 2002; INMETRO, 2003) e dos gráficos dos resíduos da regressão (ISO, 1996; BRUCE, MINKKINEN &

RIEKKOLA, 1998; DANZER & KURRIE, 1998; EURACHEM, 1998; HUBER, 1998; CHIAP et al., 1999; THOMPSON, ELLISON & WOOD, 2002; INMETRO, 2003; TAVERNIERS, DE LOOSE & VAN BOCKSTAELE, 2004) é constantemente citada nas referências sobre validação intralaboratorial de métodos. Embora a inspeção visual seja propensa a erros de interpretação, devidos principalmente às características subjetivas desta análise, a análise dos gráficos x-y e dos gráficos dos resíduos da regressão é fundamental como ferramenta complementar aos testes estatísticos formais (BURKE, 2001 a; WORKMAN &

MARK, 2004; MARK & WORKMAN, 2005 b).

O exemplo clássico de ANSCOMBE (1973) revela a importância da inspeção visual do gráfico x-y para a interpretação dos resultados da análise de regressão. Este autor apresenta quatro grupos fictícios de dados, com onze observações cada, e características obviamente diferentes. Para todos os grupos são obtidos os mesmos valores numéricos de parâmetros como inclinação, interseção, coeficiente de determinação e soma de quadrados dos resíduos da regressão. No entanto, apesar da semelhança numérica dos parâmetros da regressão, a observação da representação gráfica de cada grupo de dados revela perfis bastante diferentes, como um caso com presença de valores extremos e outro com desvio ao modelo linear.

MEIER & ZÜND (1993) afirmam que, se somente poucos pontos de calibração são disponíveis, o gráfico dos resíduos da regressão é útil para revelar possíveis tendências.

Pelo formato deste gráfico é possível avaliar o ajuste dos dados ao modelo, inferir se os resíduos da regressão têm uma variância aproximadamente constate, ou se existem valores extremos. Este gráfico é uma ferramenta de diagnóstico valiosa que fornece informações sobre a estrutura dos dados e, conseqüentemente, sobre fatores de ponderação apropriados.

Valores extremos e pontos de alavanca

Apesar das excelentes características do MMQO, este método tem o inconveniente de ser muito sensível à presença de pontos de influência como valores extremos ou pontos de alavanca. Valores extremos são definidos como observações de uma amostra tão separadas das demais que sugerem que possam pertencer a uma população diferente ou serem resultado de erros na medição. Alguns autores diferenciam a terminologia identificando valores extremos detectados entre níveis de confiança de 95 % e 99 % como stragglers e valores extremos diagnosticados com níveis de confiança maiores que 99 % como outliers (BURKE, 2001 b). Neste trabalho, não se fez distinção dos termos em função do nível de confiança. Os pontos de alavanca são aqueles pontos distantes dos demais pontos ao longo do eixo x, que afetam diretamente a estimativa dos parâmetros da equação da curva de calibração, agindo como uma alavanca (ARMITAGE

& BERRY, 1994; ISO, 1994 b; BURKE, 2001 a).

Enquanto a inspeção visual dos dados (SNEDECOR & COCHRAM, 1989; MILLER

& MILLER, 1993), dos gráficos x-y (EURACHEM, 1998; INMETRO, 2003) e dos gráficos

104 padronizado, resíduo “studentizado”, distância de Cook e resíduo padronizado Jacknife (ou resíduo externamente “studentizado”) também são úteis (BELSLEY, KUH & WELSCH, 1980; ARMITAGE & BERRY, 1994; BARRET & LEWIS, 1994; MELOUN & MILITKÝ, 2001). Considerando que cada ferramenta de diagnóstico detecta um fenômeno específico nos dados, a seleção da estatística ideal deve ser cuidadosa. O cálculo do resíduo padronizado, resíduo “studentizado” e resíduo padronizado Jacknife, por exemplo, é baseado na análise dos resíduos da regressão, enquanto a distância de Cook é baseada na medida da influência exercida sobre os parâmetros estimados (MELOUN &

MILITKÝ, 2001). Se um ponto é um valor extremo, ele terá um resíduo maior, o que irá inflar a estimativa da variância dos resíduos da regressão e, conseqüentemente, subestimar as estimativas dos resíduos padronizados e “studentizado”. Paradoxalmente, este efeito dificulta a detecção de um valor extremo (BELSLEY, KUH & WELSCH, 1980), prejudicando a eficiência destes diagnósticos. O cálculo do resíduo padronizado Jacknife emprega uma estimativa da variância dos resíduos da regressão independente do ponto sob suspeita. Estes resíduos são facilmente computados para todas as observações sem necessidade de ajustar várias regressões separadamente, para cada ponto excluído (BELSLEY, KUH & WELSCH, 1980; WEISBERG, 1985). A distância de Cook (COOK, 1977), recomendada por MULHOLLAND & HIBBERT (1997) para detectar valores extremos e comumente disponível em pacotes estatísticos, mede a influência de um ponto específico na estimativa dos parâmetros do modelo, combinando o resíduo da regressão e pontos de alavanca em uma única medida. Se um ponto não afeta significativamente a estimativa dos parâmetros do modelo, o valor de Cook não será significativo. Entretanto, o ponto pode influenciar fortemente a variância dos resíduos da regressão (MELOUN & MILITKÝ, 2001), o que torna o emprego da distância de Cook, em detrimento dos outros métodos, importante somente quando não há controle sobre pontos de alavanca, ou seja, sobre a distribuição dos pontos ao longo do eixo x no delineamento experimental.

Normalidade

A validade de inferências produzidas por estatísticas paramétricas em amostras finitas, considerando que o tamanho das amostras seja controlado, depende crucialmente de premissas relacionadas ao tipo de distribuição. Conseqüentemente, para validade dos testes, é fundamental avaliar se as distribuições hipotetizadas são compatíveis com os dados. Não normalidade, por exemplo, é impeditiva para inferências baseadas nos testes de t e F. Testes de normalidade são prevalentes porque a premissa de normalidade é

feita com bastante freqüência em análises estatísticas (DUFOUR et al., 1998). Esta premissa é citada pela ISO (1996) e por DANZER & KURRIE (1998) em procedimentos para avaliação da linearidade, mas tais autores não discutem sobre formas ou testes para avaliá-la. As revisões elaboradas por MARDIA (1980), D’AGOSTINO & STEPHENS (1986) e BARINGHAUS, DANSCHKE & HENZE (1989) reportam numerosos exemplos de testes de normalidade, aproximadamente 40, incluindo aqueles baseados em procedimentos gráficos e estatísticas formais. Os testes gráficos incluem histogramas e gráfico de normalidade, enquanto os estatísticos abrangem testes de hipótese como Kolmogorov-Smirnov, Anderson-Darling, Shapiro-Wilk, Jarque-Bera e D’Agostino.

FILLIBEN (1975) propõe um teste de normalidade baseado na correlação linear entre as estatísticas observadas ordenadas e os valores esperados de uma distribuição normal, publicando uma tabela de valores críticos. RYAN & JOINER (1976) apresentam um teste bastante simples, fácil de calcular, visto que não são necessárias tabelas especiais para sua computação, e que combina gráficos de probabilidade normal com um teste estatístico formal de correlação. Este teste é numericamente similar ao teste de Filliben, cuja potência para amostras pequenas (n = 20) foi demonstrada (FILLIBEN, 1975), além de ser equivalente ao potente teste de Shapiro-Wilk (RYAN & JOINER, 1976).

Quando uma variável não segue a distribuição normal, é possível criar uma variável transformada e testá-la para normalidade. BOX & COX (1964) sugerem um grupo de transformações que inclui raiz quadrada, logaritmo e inverso. DANZER & KURRIE (1998) indicam o emprego de métodos não paramétricos para calibração nos casos em que não houver distribuição normal.

Homoscedasticidade

Regressão linear pelo MMQO assume que cada nível da faixa tem uma variação absoluta constante (homoscedasticidade). Todavia, muitos métodos de ensaio produzem dados que são heteroscedásticos, com valor relativo dos erros constante (BOX, 1953).

Além da possibilidade de verificação desta premissa pela inspeção visual dos gráficos (ISO, 1996; MULHOLLAND & HIBBERT, 1997; EURACHEM, 1998; THOMPSON, ELLISON & WOOD, 2002), há vários testes formais possíveis para avaliação da homogeneidade das variâncias. O teste de Cochran, recomendado para tratamento de valores extremos em estudos colaborativos (HORWITZ, 1995; AOAC, 1997), também é

106 um número suficiente de replicatas para obtenção de uma estimativa razoável da variância de cada nível (BURKE, 2001 b). Testes de F máximo (Hartley) e de Bartlett também são indicados para avaliação da homoscedasticidade dos resíduos (DANZER &

CURRIE, 1998), embora sejam muito sensíveis à premissa de distribuição normal (SNEDECOR & COCHRAN, 1989). O teste de F máximo requer igual número de replicatas entre os níveis e não considera todos os níveis (DANZER & CURRIE, 1998), somente os de maior e menor variância. O teste de Bartlett permite que o número de replicatas seja desigual (DANZER & CURRIE, 1998). O teste estatístico para amostras de mesmo tamanho, proposto por LEVENE (1960), foi subseqüentemente generalizado para amostras de tamanhos desiguais (DRAPER & HUNTER, 1969). Neste teste, o resultado estatístico é obtido por análise de variância inteiramente casualizada em que cada observação é substituída por seu desvio absoluto da média do grupo. Entretanto, para amostras muito pequenas, a validade do teste fica prejudicada, devido à alta correlação entre os desvios de um mesmo grupo. BROWN & FORSYTHE (1974) apresentam uma fórmula alternativa para o teste de Levene, robusta em condições de não normalidade, que utiliza a mediana em lugar da média e o módulo dos desvios para minimizar possíveis problemas causados pela correlação entre os desvios de um mesmo grupo.

Se houver heteroscedasticidade, é possível criar uma variável transformada e testá-la novamente para homogeneidade das variâncias. O método dos mínimos quadrados ponderados (MMQP), um tipo particular de método dos mínimos quadrados generalizados (MMQG), é comumente recomendado para dados heteroscedásticos (JOHNSTON, 1984).

Independência

Uma correlação seriada dos resíduos da regressão é chamada autocorrelação. O MMQO assume que os resíduos são independentes. A autocorrelação dos resíduos afeta a variância das estimativas dos parâmetros obtidos pelo método mínimos quadrados e pode subestimar a estimativa da variância da regressão e os intervalos de confiança. Em testes de hipóteses, pode levar a inferências equivocadas, indicando falsa significância dos regressores (DRAPER & SMITH, 1998). Esta premissa é citada pela ISO (1996) e por DANZER & KURRIE (1998) em procedimentos para avaliação da linearidade, mas tais autores não discutem sobre formas ou testes para avaliá-la. O teste de Durbin-Watson estuda a estrutura ou aleatoriedade dos resíduos da regressão, sendo freqüentemente aplicado para determinar autocorrelação de primeira ordem (DURBIN & WATSON, 1951;

HOFFMANN & VIEIRA, 1987; DRAPER & SMITH, 1998). Esta estatística também

apresenta potencial como teste para caracterização de especificações equivocadas de modelo, sendo importante para encontrar o número ótimo de termos latentes de um modelo (RUTLEDGE & BARROS, 2002). Trata-se de um teste muito sensível para verificar não linearidade, mas não ideal para ser aplicado com este propósito, visto a sua baixa potência para detectar esta condição (HOFFMANN & VIEIRA, 1987; MARK, 2003;

MARK & WORKMAN, 2005 a).

No caso de dados autocorrelacionados, MMQO não é apropriado, sendo recomendadas transformações dos dados (LITTLE & HILLS, 1975) ou uso do MMQG (JOHNSTON, 1984).

Ajuste ao modelo linear

Para algumas técnicas analíticas, o modelo linear pode não ser aplicado e modelos não lineares ou polinomiais são melhor adaptados. Alguns autores citam a análise visual de gráficos como uma forma de identificar desvios de linearidade (MULHOLLAND &

HIBBERT, 1997; EURACHEM, 1998; RSC, 2005 a; INMETRO, 2003; TAVERNIERS, DE LOOSE & VAN BOCKSTAELE, 2004). Contudo, testes de hipóteses formais também são descritos. DANZER & KURRIE (1998) e CODEX ALIMENTARIUS (2005 a) sugerem a avaliação da linearidade por testes de F, envolvendo a comparação entre a variância dos resíduos da regressão do modelo linear com a variância dos resíduos da regressão obtidos para um modelo não linear. MARK (2003) examina a linearidade pelo teste de quantos termos devem ser incluídos em uma função ajustada, baseado no princípio de que qualquer função pode ser aproximada por um modelo polinomial. Outros autores indicam uma avaliação do desvio da linearidade por análise de variância (ISO, 1996;

CHIAP et al., 1999; FEINBERG & RAGUÈNÈS, 1999; RSC, 2005 a; THOMPSON, ELLISON & WOOD, 2002). Neste caso, estritamente falando, não é a linearidade ou o ajuste ao modelo linear que é avaliado, mas sim, é demonstrado que o desvio da linearidade é tão pequeno para ser medido que pode ser considerado como não significativo sob o ponto de vista estatístico. Esta avaliação pode ser obtida por meio de medições em replicatas de cada nível da calibração, o que fornece informações sobre a variabilidade inerente das medições ou erro puro (RSC, 2005 a; THOMPSON, ELLISON &

WOOD, 2002). O desvio da linearidade consiste em dividir a variação total da resposta instrumental em três fontes: i) devida ao modelo da regressão; ii) devida ao desvio da

108 seus resultados. Se uma curva de calibração tiver curvatura significante, a hipótese nula de linearidade será rejeitada, sendo que muito cuidado deve ser tomado para encontrar o modelo mais apropriado (MONTGOMERY & RUNGER, 1994). Uma alternativa óbvia seria o ajuste a um modelo polinomial, mas a questão sobre o quão complexo este modelo precisa ser é difícil e fundamental. Por outro lado, se a hipótese nula não é rejeitada, não significa que o modelo linear seja correto, mas somente que dados obtidos não contradizem este modelo (DRAPER & SMITH, 1998) ou que os dados são insuficientes para detectar inadequações ao modelo (MEYER & ZUND, 1993). Somado a isto, em curvas de calibração existem causas de desvio de linearidade outras que não a não linearidade, sugerindo que o teste de desvio da linearidade seja sempre considerado em conjunto a inspeções visuais de gráficos (THOMPSON, ELLISON & WOOD, 2002) e testes formais das premissas dos resíduos da regressão.

No documento PROCEDIMENTO PARA VALIDAÇÃO INTRALABORATORIAL DE MÉTODOS DE ENSAIO: DELINEAMENTO E APLICABILIDADE EM ANÁLISES DE ALIMENTOS (páginas 104-110)