Modelos de regressão - Modelos de previsão

2 Modelos de classificação e previsão

2.2 Modelos de previsão

2.2.1 Modelos de regressão

Os modelos de previsão mais conhecidos são os Modelos de Regressão.

Uma Regressão é uma equação que relaciona matematicamente os valores de um conjunto de variáveis independentes, que são chamadas de explicativas, na tentativa de estabelecer o valor da variável dependente, ou variável de resposta. Considere a forma geral de um Modelo de Regressão:

( )

ε β

β + Φ + Φ + + Φ +

= x x _k _k x_k

y 0 1 1 1 2 2 2 K , (1)

onde a variável dependente y está sendo explicada por k variáveis independentes xi. As funções Φ_i

( )

⋅ são transformações sobre as variáveis independentes, como operações de potência, raiz, logaritmo, etc. Os coeficientes β_i são chamados de parâmetros da regressão, e são estimados em função do conjunto de dados que está sendo usado no processo de modelagem. O termo ε refere-se ao resíduo, ou erro, da regressão, e são definidos como a parte aleatória da regressão, em oposição à parte determinística. Mais especificamente tem-se:

( )

x _k _k

( )

x_k

y=β₀ +β₁Φ₁ ₁ +β₂Φ₂ ₂ +_K+β Φ (2)

sendo a parte determinística, e

y y− ˆ

ε = (3)

sendo a parte aleatória.

Se as variáveis explicativas são combinadas linearmente, diz-se que o modelo é de Regressão Linear. Neste caso, em sua forma mais simples, tem-se:

( )

x_i x_i i k

i = , =1,2,...,

Φ , (4)

mantendo-se os resultados encontrados anteriormente.

Para realizar completamente a modelagem dos dados, torna-se necessário estimar os parâmetros (coeficientes) da regressão. O mais conhecido método de estimação é o de mínimos quadrados sobre os resíduos da regressão. Este método pode ser aplicado sempre que algumas propriedades importantes são observadas na amostra de resíduos. Quando estas propriedades não são verificadas, é possível usar outro método, como o método da máxima verossimilhança (Cf. Neter, 1996 e Draper, 1998).

Quando o método dos mínimos quadrados é usado, os parâmetros são obtidos a partir de expressões bem definidas, com base nos valores das variáveis independentes e da variável independente. Por exemplo, para o caso de uma regressão linear com apenas uma variável independente:

ε β

β + +

= x

y ₀ ₁ , (5)

os parâmetros podem ser determinados fazendo:

x y ₁

0 β

β = −

2 1 2

x n x

y x n xy

−

= −

∑ ∑

β , (6)

sendo y a média amostral da variável dependente, x a média amostral da variável independente e n o tamanho da amostra (quantidade de casos). As transformações Φ_i

( )

⋅ podem ser aplicadas antes da estimação dos parâmetros, e os parâmetros podem ser obtidos da mesma maneira.

O modelo de regressão é bastante desenvolvido e diversos estudos estatísticos podem ser empregados para compreender melhor o relacionamento entre a(s) variável(is) independente(s) e a variável dependente. Estes estudos incluem medidas de ajustamento do modelo aos dados, intervalos de confiança para as previsões e para os parâmetros e testes de hipóteses. Para estes estudos estatísticos é importante considerar se houve transformações nos dados, pois estas transformações alteram, via de regra, a distribuição amostral das variáveis.

O resultado descrito é extensivo a várias variáveis, e pode ser descrito através de equações matriciais, colocando os dados em matrizes com um determinado aspecto. Suponha que o modelo linear a ser estimado é:

ε β β

β + + + + +

= x x _kx_k

y 0 1 1 2 2 K , (7)

lembrando que, para estimar um modelo não linear em uma determinada variável vi

basta aplicar a transformação x_i =Φ_i

( )

v_i , onde Φ_i

( )

⋅ é a função não linear que se deseja aplicar sobre a variável vi.

Para estimar uma regressão multivariada, é necessário que se tenha uma amostra com n registros, contendo cada um deles um valor para a variável dependente y e para cada uma das variáveis independentes xi, que seria uma tabela na forma descrita na Figura 2:

x_kn x_2n

x_1n y_n

...

... y₁ x₁₂ x₂₂ x_k2

x_k1 x₂₁

x₁₁ y₁

x_k ...

x₂ x₁

y Obs

Figura 2: Formato dos dados de entrada para estimar uma regressão multivariada Os dados dão origem a duas matrizes Y e X, que possuem a forma demonstrada na Figura 3. É importante chamar atenção ao formato da matriz X, que pode induzir ao erro, pois o elemento na linha i e coluna j está indicado como xji, ao invés de xij, como é de costume nos textos de álgebra. Isto foi necessário por que a notação xji foi usada para indicar o i-ésimo elemento da j-ésima variável, como pode ser comparado com a Figura 2. Além disso, observe que a matriz X possui k + 1 colunas, pois a primeira delas foi criada com valor constante e igual a 1. Isto equivale a considerar que cada observação possui uma variável (ou atributo) a mais, que possui sempre valor unitário. Este valor está relacionado com o termo constante da equação de regressão, β0. É então considerada a existência de uma variável x0 = 1, para todas as observações. Como resultado, a matriz X tem quantidade de colunas igual à quantidade de coeficientes a serem estimados.













y y Y M

2 1













kn n

k k

x x

x X

L M M

M M

L L

2 1

2 22

1 21

1 1 1

Figura 3: Matrizes necessárias para o algoritmo de estimação pelo método dos mínimos quadrados

Os parâmetros que se deseja estimar também são colocados na forma de uma matriz, que é como pode ser visto na Figura 4. Observe que a quantidade de linhas da matriz β definida é igual à quantidade de colunas da matriz X.













βk

β β

β M

1 0

Figura 4: Parâmetros a serem estimados

Com isto, é possível escrever o modelo de regressão através da expressão matricial Y = X β + ε, onde ε é também uma matriz coluna, só que com as dimensões da matriz Y, ou seja, com n elementos, que representam os resíduos de cada observação, que é a parte aleatória da regressão. A forma de e pode ser vista na Figura 5.













εn

ε ε

ε M

2 1

Figura 5: Resíduos da regressão

O algoritmo de estimação da regressão pelo método dos mínimos quadrados é dada pela minimização da soma dos quadrados dos resíduos (que pode ser indicado como o produto escalar da matriz coluna ε com ela mesma), e pode ser

facilmente mostrado (Cf. Mendenhall & Sincich, 1996) que se resolve através da solução do sistema de equações lineares dado por

(

X'X

)

β = X'Y, (8)

onde X' indica a matriz transposta de X. A solução é então encontrada:

(

X'X

)

⁻¹X'Y

β = , (9)

onde

(

X'X

)

⁻¹ será chamada de C. Prova-se ainda que o somatório dos quadrados dos resíduos, SSE, pode ser obtido através da equação:

Y X Y Y

SSE= ' −β' ' , (10)

e que a variância destes resíduos é estimada através do modelo pela equação:

(

)

= − k n

s SSE , (11)

sendo o denominador desta última os graus de liberdade para a estimação, dado pelo número de observações menos o número de parâmetros estimados.

A matriz C, definida a partir da Equação 9 é utilizada também para estimar os erros padrões das distribuições amostrais dos parâmetros βi. Tem-se que:

i s cii

s_β = , (12)

onde s é o desvio padrão dos resíduos, obtido pela raiz quadrada da variância estimada acima, e cii é o i-ésimo elemento da diagonal principal da matriz C.

Outros importantes resultados da estimação da regressão multivariada pelo método dos mínimos quadrados em versão matricial podem ser obtidos na literatura, (Cf. Mendenhall & Sincich, 1996).

A Análise de Variância (ANOVA – ANalysis Of VAriance) é um teste de

dispersão da variável dependente. Este teste é comumente chamado de teste da utilidade global do modelo, ou teste de validação do modelo.

Para entender como funciona este teste de hipóteses, considere que um modelo de regressão tem a forma:

k kx x

yˆ =β0 +β1 1+β2 2+K+β , (13)

onde y é a variável dependente (variável de resposta), x_i são as variáveis independentes (atributos) e β_i são os parâmetros (coeficientes) da regressão, que foram estimados através do Método dos Mínimos Quadrados. Tem-se então que

ε +

= y

y ˆ , (14)

onde yˆ são os valores previstos pelo modelo de regressão para a variável de resposta e ε são os resíduos (erros) do modelo.

Três importantes medidas de variação relacionadas à variável de resposta e à regressão são definidas:

Variação Total: ^SST ⁼

∑ (

^y⁻ ^y

)

²^{, (15)}

Variação não Explicada: ^SSE⁼

∑ (

^y⁻^y^ˆ

)

²^{, (16)}

Variação Explicada: ^SSR⁼

∑ (

^y^ˆ⁻^y

)

²^{, (17)}

É relativamente fácil mostrar que:

SSR SSE

SST = + , (18)

o que significa que a regressão explica uma parte da dispersão da variável dependente.

O teste descrito utiliza estas partes da dispersão da variável dependente para se posicionar diante de duas hipóteses:

H0: 0β_i = , para todo i;

H : 0β ≠ , para algum i.

Define-se então uma estatística F dada pela razão

(

)

−

= k n

SSEk SSR

F , (19)

que tem no numerador a chamada variação média do modelo e no denominador a variação média dos resíduos. A estatística calculada é comparada com um valor crítico, que pode ser obtido através de tabelas estatísticas da distribuição de Fisher, que são definidas em termos dos graus de liberdade do numerador e denominador (no caso k e n – (k + 1), respectivamente) e em função de um nível de confiança. A Hipótese H0 deve ser rejeitada se a estatística calculada é maior do que o valor crítico obtido. Neste caso, pode-se garantir que, como algum dos coeficientes é não nulo, existe uma relação estatisticamente válida entre a variável dependente e o conjunto de variáveis independentes.

Estes resultados aqui demonstrados são o esboço inicial da teoria, e são importantes para o algoritmo desenvolvido e sobre o qual discorreu-se ao longo do Capítulo 5.

No documento Índice de Tabelas (páginas 35-42)