• Nenhum resultado encontrado

3.3 Modelo de Regressão Logística

3.3.5 Análise de Resíduos

Após efectuado o ajustamento do modelo de regressão logística aos valores observados, é necessário verificar os pressupostos do modelo relativamente à distribuição da função de

56

ligação, dos valores preditos assim como os valores mal ajustados. Todos os pressupostos são validados através de uma análise sobre os resíduos.

Existem diversas formas de se calcular os resíduos, todavia a sua finalidade consiste em avaliar a proximidade entre os valores observados e os valores ajustados, assim é possível obter um nível de concordância entre os valores mencionados de acordo com as covariáveis do modelo. A fórmula dos resíduos para a i-ésima observação do conjunto de dados é dada por:

𝑟𝑖= 𝑦𝑖− 𝑦̂𝑖

sendo que 𝑦𝑖 é o valor observado para a i-ésima classe de covariáveis e 𝑦̂𝑖 é o valor ajustado

para a i-ésima classe de covariáveis. Onde 𝑦̂𝑖= 𝑛𝑖𝜋̂𝑖.

Tal como já foi dito anteriormente, existem diferentes formas de se calcularem os resíduos, sendo apresentados apenas aqueles que foram utilizados no capítulo 5. Para os modelos de regressão existem dois tipos de resíduos mais usuais, nomeadamente os resíduos de Pearson e os resíduos de desvio.

3.3.5.1 Resíduos de Pearson

Os resíduos de Pearson, ou qui-quadrado, são dados por: 𝑋𝑖=

(𝑦𝑖− 𝑛𝑖𝜋̂𝑖)

√𝑛𝑖𝜋̂𝑖(1 − 𝜋̂𝑖)

Nestes casos a variância pode não ser igual a 1, ao contrário do caso dos modelos de regressão linear. Com efeito, usando a aproximação de regressão linear de Pregibon (1981) no resíduo para a i-ésima classe de covariáveis, 𝑉𝑎𝑟[𝑦𝑖− 𝑛𝑖𝜋̂𝑖] ≈ (1 − ℎ𝑖)𝑉𝑎𝑟(𝑦𝑖), onde ℎ𝑖 é a medida

leverage. A variância do resíduo é dada por

𝑛𝑖𝜋̂𝑖[1 − 𝜋̂𝑖](1 − ℎ𝑖)

o que sugere que os resíduos de Pearson não têm variância igual a 1 excepto se forem padronizados.

Os resíduos de Pearson padronizados são dados por: 𝑟𝑝𝑖= (𝑦𝑖− 𝑛𝑖𝜋̂𝑖) √𝑛𝑖𝜋̂𝑖[1 − 𝜋̂𝑖](1 − ℎ𝑖) = 𝑋𝑖 √(1 − ℎ𝑖)

3.3.5.2 Resíduos de Desvio

Estes são desenvolvidos a partir da função desvio, já mencionada anteriormente. A função de desvio residual é definida do seguinte modo:

𝑑(𝑦𝑖, 𝜋̂𝑖) = ± {2 [𝑦𝑖𝑙𝑛 ( 𝑦𝑖 𝑛𝑖𝜋̂𝑖) + (𝑛𝑖− 𝑦𝑖)𝑙𝑛 ( (𝑛𝑖− 𝑦𝑖) 𝑛𝑖(1 − 𝜋̂𝑖))]} 1 2 ⁄

onde o sinal + ou – é o mesmo que o sinal de (𝑦𝑖− 𝑛𝑖𝜋̂𝑖) = (𝑦𝑖− 𝑦̂𝑖), isto é, dos resíduos do

modelo.

Para as classes de covariáveis com 𝑦𝑖= 0 o desvio residual é dado por:

𝑑(𝑦𝑖, 𝜋̂𝑖) = −√2𝑛𝑖|𝑙𝑛(1 − 𝜋̂𝑖)|

enquanto o desvio residual para as classes de covariáveis com 𝑦𝑖= 𝑛𝑖, é dado por:

57

Os resíduos de desvio padronizados são dados pela seguinte fórmula: 𝑟𝑑𝑖 =

𝑑(𝑦𝑖, 𝜋̂𝑖)

√(1 − ℎ𝑖)

onde é possível verificar que os resíduos de desvio padronizados, tal como os resíduos de

Pearson padronizados, dependem do leverage.

3.3.5.3 Pontos influentes e Leverage

O Leverage, ℎ𝑖, é um termo usado nos modelos de regressão e, em particular, em análises

com vista a identificar as observações que se encontram afastadas das restantes de acordo com as covariáveis. As observações leverage não têm necessariamente um grande efeito na variável resposta nos modelos de regressão ajustados. Apesar de uma observação influente possuir um leverage elevado, um leverage elevado não é necessariamente uma observação influente.

Por outro lado, uma observação é influente se a sua exclusão produzir alterações significativas nas estimativas dos parâmetros do modelo e consequentemente no seu ajustamento. A sua presença ou ausência pode, por esse motivo, alterar as conclusões finais do modelo.

3.3.5.4 Outliers

Um outlier consiste numa observação que se encontra distante das restantes observações. A existência de outliers pode revelar alguma variabilidade no conjunto de dados ou mesmo ser indicador de um erro experimental. De um modo geral, são excluídos do conjunto de dados. Uma causa frequente dos mesmos é a mistura de duas distribuições, indicando a possibilidade da presença de duas sub-populações (modelo misto).

3.3.5.5 Análise gráfica dos resíduos

Os procedimentos gráficos, na análise de resíduos, são de extrema importância. Após o ajustamento de um modelo ao conjunto de dados é preciso diagnosticar possíveis problemas na parte sistemática e na parte aleatória através de representações gráficas.

Identificação de Outliers

Com vista a identificar quais as observações consideradas outliers, existem diferentes tipos de representações gráficas para o efeito.

Gráfico dos resíduos padronizados de Pearson vs Índice das observações

Considerado o gráfico mais eficaz na detecção de outliers, dado que permite encontrar os resíduos com valores demasiado elevados. Este gráfico também pode avaliar o ajustamento do modelo através da disposição dos resíduos em função do seu índice de observação, sendo um modelo correcto se este não apresentar uma tendência e revelar uma estabilidade em torno do zero.

Gráfico das probabilidades cruzadas vs Índice das observações

Esta representação é utilizada exclusivamente para dados não agrupados e visa calcular a probabilidade da i-ésima observação sabendo as restantes n-1 observações. Esta probabilidade é denominada de probabilidade cruzada e o seu cálculo contra a sua ordem de observação visa saber quais as observações que têm menos probabilidade de acontecer, sendo estas possíveis outliers.

58

Gráfico half-normal dos resíduos padronizados de Pearson

Quando o modelo ajustado é o correcto o papel de probabilidades normal pode ser útil na análise do modelo, sendo que os resíduos de desvio seguem uma distribuição normal padrão sob a condição anterior. Contudo, existem casos onde a sua distribuição não é gaussiana mesmo sendo um modelo correctamente ajustado. Para estes casos, as observações não estão certamente sobre uma linha recta e podem revelar alguma correlação entre si no entanto, este gráfico, assim como o gráfico dos resíduos padronizados de Pearson vs índice das observações, pode detectar a presença de outliers.

Gráfico dos Leverages vs Índice das observações

Este gráfico consiste em detectar as observações mais influentes para o modelo, isto é, observações que ao serem retiradas do modelo produzam elevadas alterações nos coeficientes de cada uma das covariáveis presentes no modelo. A medida que permite detectar essas observações é denominada de leverage, ℎ𝑖, sendo uma observação é considerada influente se

ℎ𝑖> 2𝑝/𝑛, onde 𝑝 é o número de parâmetros do modelo e 𝑛 o número de observações.

Gráfico da estatística D vs Índice das observações

Este gráfico permite avaliar a influência da i-ésima observação no vector das estimativas dos parâmetros, obtido com base em todas as observações.

A expressão para a estatística D de cada observação 𝑖 é dada por:

𝐷

𝑖

=

𝑖

𝑟

𝑝𝑖

2

𝑝(1 − ℎ

𝑖

)

Valores elevados de 𝐷𝑖 revelam uma elevada influência por parte da i-ésima observação, a sua

representação contra a sua ordem de observação é um método útil de se detectarem observações influentes. Esta estatística é considerada a mais útil na avaliação da influência produzida por uma observação na estimativa dos parâmetros do modelo (Collett, 1999).

Documentos relacionados