• Nenhum resultado encontrado

3.4 Regressão Logística

3.4.3 Estimação do Modelo

A seguinte observação é apresentada por Hosmer e Lemeshow (2000, p.8):

O método de estimação geral que leva à função dos mínimos quadrados no modelo de regressão linear (quando os termos de erro são normalmente distribuídos) é chamado de máxima verossimilhança. Esse método fornece a base para nossa abordagem à estimação para o modelo de regressão logística. De um modo bem geral, o método da máxima verossimilhança gera valores para os parâmetros desconhecidos que maximizam a probabilidade de obter o conjunto de dados observados. Para aplicar esse método, deve-se, primeiramente, construir uma função, chamada função de verossimilhança. Essa função expressa a probabilidade dos dados observados como uma função dos parâmetros desconhecidos. Os estimadores de máxima verossimilhança desses parâmetros são escolhidos de modo a maximizarem essa função. Deste modo, os estimadores resultantes são aqueles que mais se ajustam aos dados observados.79

Ou seja, o método dos mínimos quadrados nada mais é do que um caso específico do método da máxima verossimilhança. Na regressão linear, as equações de verossimilhança obtidas são lineares nos parâmetros desconhecidos e, portanto, simples de resolver. Mas, na regressão logística, as equações são não-lineares nos parâmetros, sendo necessário utilizar métodos iterativos (HOSMER; LEMESHOW, 2000, p. 9).

Com relação à escolha das variáveis explicativas para comporem o modelo estatístico, Hosmer e Lemeshow (2000, p. 92) sugerem:

O critério para incluir uma variável em um modelo pode variar de um problema para outro e de uma disciplina científica para outra. A abordagem tradicional para a construção do modelo estatístico consiste em procurar pelo modelo mais parcimonioso que ainda explica os dados. A razão de minimizar o número de variáveis no modelo é que o modelo resultante tem maior probabilidade de ser numericamente estável, e é mais fácil de generalizar. Quanto mais variáveis são incluídas no modelo, maiores se tornam os desvios padrões estimados, e mais dependente o modelo se torna dos dados observados [...] O superajustamento é tipicamente caracterizado por coeficientes e/ou desvios padrões estimados muito grandes. Isso pode ser especialmente problemático em casos onde o número de variáveis no modelo é grande em relação ao número de elementos e/ou quando a proporção de eventos no total (y=1) é próxima ou de 0 ou de 1.80

79 “The general method of estimation that leads to the least squares function under the linear regression model

(when the error terms are normally distributed) is called maximum likelihood. This method will provide the foundation for our approach to estimation with the logistic regression model. In a very general sense the method of maximum likelihood yields values for the unknown parameters which maximize the probability of obtaining the observed set of data. In order to apply this method we must first construct a function, called the likelihood function. This function expresses the probability of the observed data as a function of the unknown parameters. The maximum likelihood estimators of these parameters are chosen to be those values that maximize this function. Thus, the resulting estimators are those which agree most closely with the observed data.”

80 “The criteria for including a variable in a model may vary from one problem to the next and from one

scientific discipline to another. The traditional approach to statistical model building involves seeking the most parsimonious model that still explains the data. The rationale for minimizing the number of variables in the model is that the resultant model is more likely to be numerically stable, and is more easily generalized. The more variables included in a model, the greater the estimated standard errors become, and the more dependent the model becomes on the observed data […] Overfitting is typically characterized by unrealistically large estimated coefficients and/or estimated standard errors. This may be especially troublesome in problems where

Apesar da disponibilidade de um grande número de registros para a modelagem, o baixo percentual de default causa preocupação.

Para a análise dos modelos de estimativas por máxima verossimilhança, Wooldridge (2002, p. 461) apresenta três testes: teste Wald, teste da razão de verossimilhança e teste do multiplicador de Lagrange; e explica que a escolha do teste normalmente depende da simplicidade computacional. Especificamente sobre o teste da razão de verossimilhança, Wooldridge (2006, p. 588) expõe que este teste torna-se atraente quando os modelos irrestrito e restrito são fáceis de estimar. A sua base está na diferença das funções log-verossimilhança (log-likelihood) dos modelos irrestrito e restrito. Como a estimativa por máxima verossimilhança maximiza a função log-verossimilhança, a exclusão de variáveis geralmente leva a uma log-verossimilhança menor do que a do modelo irrestrito. Assim, para determinar se as variáveis excluídas são importantes, deve-se determinar a estatística de teste e um conjunto de valores críticos. A estatística teste é o dobro da diferença das log- verossimilhanças, que apresenta uma distribuição Qui-quadrado aproximada, sob a hipótese nula de que os coeficientes das variáveis excluídas são nulos, com os graus de liberdade representados pelo número de variáveis excluídas.

O SPSSTRAINING (2003, p. 3-18) apresenta o procedimento stepwise de seleção do modelo, que indica qual é o melhor subconjunto de variáveis explicativas que são boas preditoras da variável dependente. Hosmer e Lemeshow (2000, p. 117) sugerem esse procedimento quando a variável dependente é relativamente nova e as variáveis independentes não são bem conhecidas, e as suas associações não são bem entendidas. Eles apresentam como vantagem a rapidez na análise de um grande número de variáveis e o ajuste simultâneo de várias equações e explicam que qualquer passo, tanto de inclusão como de exclusão de variáveis no modelo, é baseado em um algoritmo estatístico que verifica a relevância dessas variáveis. Um aspecto classificado como crucial é a determinação do nível de significância ( ), tanto na inclusão como na exclusão de uma variável (esses dois dados devem ser estabelecidos).

Um aspecto levantado pelo SPSSTRAINING (2003, p. 3-18) com relação ao procedimento

stepwise é que os algoritmos buscam a maximização da verossimilhança, o que não significa a

the number of variables in the model is large relative to the number of subjects and/or when the overall proportion responding (y=1) is close to either 0 or 1.”

maximização da acurácia preditiva. Assim, especialmente quando o foco da análise for a acurácia preditiva, a validação é importante quando se utiliza desse procedimento e existem dados suficientes para tal teste. Como critério de eliminação da variável no procedimento

stepwise, sugere-se a variação da razão de verossimilhança (likelihood ratio)81.

Como este estudo trata de uma variável dependente não muito conhecida (evento de inadimplência no SFN), tal como as relações com as variáveis independentes (poucos estudos disponíveis), o procedimento stepwise seria uma opção cômoda, mas, devido a restrições em seu trato com as variáveis categóricas82, que são importantes neste estudo, entende-se que a melhor alternativa consiste em trabalhar manualmente na seleção das variáveis explicativas, utilizando o teste da razão de verossimilhança.