• Nenhum resultado encontrado

Seleção e validação de modelos

3.2 Modelos de Regressão Logística Múltipla

3.2.3 Seleção e validação de modelos

em que Dk e Dlrepresentam as funções desviância dos modelos Mk e Ml, respetivamente. Sob a hipótese nula de que o modelo Mk é tão bom como o modelo Ml, λ tem distribuição Qui-Quadrado com l-k graus de liberdade.

A utilidade deste teste traduz-se na possibilidade de comparação entre modelos encaixados, não esquecendo referir que este teste apenas permite concluir que o modelo é siginificativo, porém, não nos indica que todas as variáveis incluídas no modelo são significativas. Assim sendo, este teste por si só não permite aferir que o ajustamento é bom.

3.2.3 Seleção e validação de modelos

Uma vez definido o conjunto de covariáveis a ser incluído num modelo logístico, resta saber qual a melhor maneira de encontrarmos um modelo reduzido que inclua apenas as covariáveis e interações mais importantes para explicarmos a probabilidade de sucesso π(x). Segundo Hosmer e Lemeshow a escolha das variáveis a incluir no modelo deve iniciar-se através de uma análise univariada, para cada variável possível, contra a variável resposta em estudo. Esta análise univariada pode ser realizada através de um modelo de regressão logística univariado ou, através de uma tabela de contingência para variáveis independentes do tipo nominal ou ordinal e teste t para duas amostras no caso de variáveis contínuas. Completada a análise univariada, são selecionadas as variáveis para a análise multivariada. Qualquer variável com valor−p < 0.25 deve ser considerada como candidata para o modelo de regressão logística multivariado.

Encontradas as variáveis importantes para a construção do modelo, destacam-se três mé- todos de seleção para chegar ao modelo final: forward, backward e stepwise.

Qualquer procedimento para seleção ou exclusão de variáveis de um modelo é baseado em um algoritmo que verifica a importância das variáveis, incluindo ou excluindo-as do modelo se baseando em uma regra de decisão.

do coeficiente associado à variável para o modelo. Essa estatística depende das suposições do modelo. O critério para adição ou remoção de variáveis, em regressão linear, é geral- mente baseado na estatística F, comparando os modelos com e sem as variáveis em análise. Em regressão logística, os erros seguem uma distribuição binomial sendo baseado no teste de razão de verosimilhança.

Método Forward

Este procedimento inicia-se com um modelo que não contenha variáveis explicativas. A ideia do método é adicionar uma variável de cada vez, selecionando em primeiro lugar aquela que apresentar um valor de correlação mais elevado, em módulo, com a variável resposta, e assim consequentemente, até que o processo pára quando o aumento do coefi- ciente de determinação, devido à inclusão de uma nova variável explicativa no modelo não é mais importante.

Método Backward

Enquanto o método Forward começa sem nenhuma variável no modelo e adiciona variáveis a cada passo, o método Backward faz o oposto. Este incorpora inicialmente todas as variáveis, e ao longo do processo cada uma pode ou não ser eliminada. A primeira variável a ser removida é aquela que apresenta um menor coeficiente de correlação parcial com a variável resposta.

Método Stepwise

O método Stepwise é um dos métodos mais utilizados e consiste na combinação dos dois métodos anteriores (Forward e Backward). Este, inicia com uma variável (a que apresentar maior correlação com a variável resposta), e a cada passo do Forward, depois de incluir uma variável, aplica o Backward para ver se será descartada alguma variável. Continua-se o processo até este não incluir ou excluir nenhuma variável. A significância de cada variável é assegurada pelo Teste da Razão de Verosimilhança e portanto, em cada passo deste procedimento, a variável com maior importância estatística é aquela capaz de produzir uma mudança significativa no logaritmo da verosimilhança em relação ao modelo que não contém a variável (Hosmer e Lemeshow 2000). Este processo é finalizado quando não há mais variáveis capazes de acarretar alterações consideráveis.

Validação do modelo

Quando se fala na qualidade do ajuste de um modelo de regressão logística tem que se ter em atenção a análise de medidas das diferenças entre os seus valores observados da variável resposta, y, e os resíduos. Sendo o objetivo avaliar o “bom” ajuste do modelo construído através da regressão logística, pode-se fazê-lo usando representações gráficas dos valores dos resíduos. Algumas destas representações serão abordadas mais à frente.

Pode-se ainda aplicar testes baseados em estatísticas desses valores, fundamentados no valor da estatística de teste e avaliando a qualidade do ajuste do modelo de uma forma global (Martins, 2008).

Alguns dos resíduos que poderão ser utilizados para avaliar a qualidade do ajustamento serão apresentados de seguida.

• Resíduos correntes:

ri = yi− ˆµi, i = 1, ..., n, (3.25) onde yi são os valores observados e µi os valores ajustados. Uma vez que a variável resposta é binária e os valores ajustados variam no intervalo [0, 1], os resíduos do modelo variam no intervalo [-1, 1]. Quando ri > 0, yi = 1 e, para ri < 0, yi = 0. Para ri= 0, o ajustamento é perfeito, isto é, yi = ˆµi(os valores observados são iguais aos valores ajustados).

• Resíduos de Pearson: rpi= (yi− ˆµi)wi q ˆ φ(var(ˆµi)) , i = 1, ..., n (3.26)

Para o modelo logístico, com Yi ∼ Bin(ni, πi), tem-se, ˆ

µi= niπi, V (µi) = niπi(1 − πi) e φ = w = 1.

E, portanto, os resíduos de Pearson, para o modelo logístico, são dados por

rpi= (yi− ˆµi)wi q ˆ φ(var(ˆµi)) = (yi− ˆµi) p(var(ˆµi)) = (yi− niπi) pniπi(1 − πi) , i = 1, ..., n (3.27)

• Resíduos de Pearson Padronizados:

rpi=

(yi− ˆµi)wi pvar(ˆµi)(1 − hii)

, i = 1, ..., n (3.28)

onde hii é o i-ésimo elemento da diagonal da matriz de projeção generalizada H (também chamada de hat matrix, uma vez que ˆµi = Hy). Este termo pode ser calculado através da expressão hii = xTi(XTX)xi. A desvantagem dos resíduos de Pearson é que a sua distribuição é, geralmente, bastante assimétrica para modelos não Normais, do qual é exemplo o modelo de regressão logística.

Como referido anteriormente, a análise de resíduos do modelo é feita, principalmente, com recurso a ferramentas gráficas, das quais se destacam as seguintes:

• Scatterplot dos resíduos (ou diagrama de dispersão) - Este gráfico permite verificar se os resíduos não apresentam qualquer tipo de padrão e se os mesmos se encontram bem distribuídos no intervalo [-2,2]. De acordo com a literatura existente, 95% dos resíduos devem encontrar-se nesse intervalo;

• Resíduos vs Valores ajustados - Permite verificar a existência de heterocedasticidade. É assumido que os resíduos são independentes dos valores ajustados, querendo isto dizer que a correlação entre resíduos e valores preditos deve tomar o valor 0;

• Q-Q plot Normal dos resíduos - Permite avaliar se os resíduos seguem uma distribui- ção Normal(0,1), através da comparação entre os quantis teóricos e amostrais;

• Histograma dos resíduos - Permite avaliar a simetria (ou falta dela) dos resíduos, ajudando, eventualmente, na deteção de padrões nos resíduos.

Teste de Hosmer e Lemeshow

Hosmer e Lemeshow sugerem uma estatística que avalia a adequabilidade do modelo aos dados, esta baseia-se na comparação de grupos (preferencialmente g=10 grupos) e é obtida através da comparação de frequências observadas e esperadas dentro de cada grupo. A hipótese a testar é : “O modelo encontrado explica bem os dados”. E a estatística de Hosmer e Lemeshow é definida por

XHL2 = g X k=1 (ok− ek)2 nkπ¯k(1 − ¯πk)

Documentos relacionados