Novas generalizações

Fig 2.1: Árvore binária de regressão com as funções base associadas

2.2.2 Novas generalizações

Outro problema inerente às funções base (2.2) produzidas pelo algoritmo 1 (ou às produzidas pela sua generalização contínua (2.3)) surge com o aumento de uma unidade no nível de interacção entre as variáveis sempre que ocorre uma divisão (uma vez que a função base Bm* (z)

é removida e substituída por duas funções fruto do seu produto por duas funções univariadas reflexas). À medida que as divisões prosseguem as funções base finais têm tendência a envolver um número significativo de variáveis envolvendo elevada interacção. Estes factores incapacitam o método CART e a referida generalização contínua de aproximar convenientemente funções nas quais não existe interacção entre as variáveis ou cujas interacções existentes envolvam um pequeno número de variáveis (funções lineares e aditivas encontram-se nesta classe de funções). Novas alterações no algoritmo 1 permitirão resolver este problema e obter funções base "spline" multivariadas. O problema central reside na substituição da função base pelos seus produtos por uma função "spline" univariada e pela sua reflexa da base bilateral de potências truncadas, causando sucessivos aumentos de interacção. A solução proposta para o mesmo consiste em simplesmente não remover a função base pai mas, em vez disso, acrescentar ao modelo as duas funções suas "descendentes". Procedendo deste modo, o número de funções base aumenta duas unidades por iteração, sendo todas as funções base (pais e filhos) possíveis eleitas para futuras divisões. Assim, funções envolvendo uma só variável obtêm-se escolhendo para pai a função base Bi (x) = 1, funções de duas variáveis escolhendo para pai a função base univari- ada adequada, e assim sucessivamente. Uma vez que neste novo modelo não se fazem restrições quanto à escolha da função pai, ele é capaz de produzir funções envolvendo tanto fortes como

fracas interacções entre as variáveis (até mesmo com ambas as situações). Modelos aditivos puros obtêm-se escolhendo sempre como pai a função Bi (x) = 1. Esta estratégia de não remover a função pai e possibilitar a escolha de qualquer função base para nova divisão torna redundante a existência de múltiplos factores envolvendo uma mesma variável numa função base. Para efectuar múltiplas divisões na mesma variável basta escolher várias vezes a mesma função pai

(correspondente a essa variável), aumentando o número de termos mas não a profundidade da di- visão. Modificando novamente o algoritmo por forma a não permitir funções base com múltiplos factores envolvendo a mesma variável não alteramos o modelo e fazemos com que as funções base obtidas sejam elementos do produto tensorial completo de funções "spline" univariadas com "knots" em todos os valores distintos dos dados.

As várias generalizações apresentadas requerem que se efectue no algoritmo 1 três modi- ficações:

(i) substituir a função H (± (x — t)) pela função polinomial truncada (± (x — ífc))+; (ii) não remover a função base pai Bm* {x) depois da sua divisão (de modo a que tanto ela

como as duas funções descendentes sejam candidatas a novas divisões);

(iii) obrigar o produto associado a cada função base a envolver factores com variáveis

distintas;

e conduzem à obtenção de uma função aproximante contínua, com q — l derivadas contínuas, apresentando-se essa função em forma de expansão de produtos tensoriais de funções "spline" de grau q.

Como o nosso objectivo é produzir uma boa função aproximante da função real (e não das suas derivadas) em geral pouco se ganha e muito se pode perder impondo, para além da continuidade da função aproximante, a continuidade das suas derivadas, especialmente em espaços de predição de elevadas dimensões. A dificuldade associada à utilização de funções "spline" de ordem elevada deve-se aos chamados "end effects". A maior contribuição para o erro estimado da função aproximante

1 N , 2

— V* (yi — f (XÍ) J ( estimativa do erro quadrático médio)

i = l

é dada pelos valores dos dados próximos da fronteira do domínio. Este fenómeno torna-se ainda mais evidente em dimensões elevadas porque a proporção de dados próximos da fronteira aumenta vertiginosamente com o aumento da dimensão do espaço de predição (os dados encontram-se muito mais dispersos relativamente à média). Nestas regiões, a aproximação da função real recorrendo a polinómios de grau elevado (determinados por funções base "spline" de grau elevado), conduz a grande variância da função aproximante.

Para resolver este problema, [Stone & Koo, 85] sugeriram modificar as funções base "spline" convertendo-as de modo diferenciável em funções lineares perto das fronteiras do intervalo de dados de cada variável.

A forma computacional mais simples de assegurar aproximações lineares perto das fronteiras é aproximar linearmente (por bocados) a função real sobre todo o espaço de predição. Para o efeito basta utilizar produtos tensoriais de funções base "spline" de grau q — l.

Seguindo as sugestões de [Stone & Koo, 85] o programa MARS implementa, numa fase inicial, as generalizações referidas em parágrafos anteriores utilizando q — 1, obtendo um modelo aproximante contínuo com boas condições de fronteira. Posteriormente o conjunto de funções base finais é modificado por forma a obter um modelo com primeira derivada contínua mas mantendo condições favoráveis de fronteira.

2.2.3 O algoritmo d o M A R S

O algoritmo 2, que se segue, implementa esta fase do programa MARS.

Algoritmo 2

Bi (x) <- 1; M <- 2;

Loop until M > Mmax:

lof* *— oo;

For m = 1 to M - 1 do:

For v g {v (k, m) : 1 < k < Km} do:

For t G {xvj : Bm (XJ) > 0}:

M—1

g^Yl ciiBi (x) + aMBm (x) [+ {xv -1)]+ + aM+iBm {x) [- (xv -1)]+ ;

lof +- min LOF (g);

ai,...,ajvf

if lof < lof* then:

lof* <— lof; m* <— m; v* *- v; t* <— i; end if end for end for end for BM (x) «- Bm. (x) [+ {xv. - i*)]+ ; BM+i (X) «- Bm. (x) [+ (av - i*)]+ ; M *- M + 2; end loop

Este algoritmo produz Mmax funções base, produtos de funções "spline"de grau q = 1, que são elementos da base bilateral de polinómios truncados representada pelo produto tensorial completo sobre todas as funções base univariadas com "knots" em todos os valores distintos dos dados. Como no método CART, este conjunto de funções é posteriormente sujeito a um processo de poda que determina o conjunto de funções base final intervenientes na função aproximante contínua.

As localizações dos "knots" associados a esta aproximação são então utilizadas para determinar funções cúbicas truncadas que permitem obter o modelo final do método MARS, contínuo e com primeira derivada contínua.

2.2.4 O processo d e p o d a

Ao contrário do que ocorre no algoritmo 1, as funções base do algoritmo 2 não correspondem a sub-regiões disjuntas do espaço de predição mas sim a sub-regiões sobrepostas. É assim possível podar uma a uma essas funções sem o inconveniente de originar os referidos "buracos" no espaço de predição, desde que a função base Bi (x) = 1 (espaço total) nunca seja removida.

O algoritmo 3 implementa o referido método de poda. Na primeira linha J* representa o conjunto das funções base produzidas pelo algoritmo 2; em cada iteração o algoritmo escolhe a função base que removida nesse passo minimiza as perdas causadas e remove-a. A restrição imposta de não remover B\ (x) = 1 é salvaguardada na linha 5 uma vez que m nunca assume o valor 1. O algoritmo 3 constrói uma sequência de Mmax — 1 modelos, cada um com menos uma função base que o anterior, e retorna em J* as funções base que constituem o modelo óptimo.

Algoritmo 3

J* = {l,2,...,Mmax};K*+-J*;

lof* *- min LOF l £ a-jBj (x) ) ;

{dj-.-.jeJ*} \j€J* )

For M = Mmax t o 2 do:

b <- oo; L «- K*;

For m = 2 to M do:

K «- L - {m} ;

lof ^r min LOF [ £ akBk (x) ) ;

{ak:k£K} \k€K )

if lof < b then

b 4- lof; K* <- K;

end if

lof* «- lof; J* <- K;

end if end for end for

2 . 3 D e c o m p o s i ç ã o A N O V A

O modelo MARS resultante da aplicação dos algoritmos 2 e 3 toma a forma

M Km

r (

/ (x) = Oo+ X^ °

I I [

Skm

\

Hk,m) - tkm) > (

-

)

m—\ k=\

onde ao é o coeficiente da função base B\ = 1, e a soma é feita sobre as funções base Bm

((2.3), com o = 1) produzidas pelo algoritmo 2 que não foram podadas pelo algoritmo 3. A interpretação deste modelo é facilitada pela sua representação numa outra forma que realça as relações existentes entre as variáveis de predição e a variável de resposta:

f{x)=ao+ J2 /<(**) + £ fij(xi,xj)+ J2 fijk(xi,xj,xk) + ... (2.5)

onde a primeira soma se processa sobre todas as funções base que envolvem apenas uma variável, a segunda sobre todas as funções base que envolvem duas variáveis (salientando as variáveis com interação de nível dois), e assim sucessivamente.

Pela sua semelhança com a decomposição utilizada na análise de variância em tabelas de contingência, denominamos a representação (2.5) por decomposição ANOVA do modelo MARS.

Seja V (m) = {v ( f c , ™ ) } ^ o conjunto das variáveis associadas à m-ésima função base Bm

(2.4).

Escrevemos cada função da primeira soma de (2.5) na forma

fi{xi)= Yl a>mBm(xi), (2.6)

Km=l

soma de todas as funções base envolvendo apenas a variável Xi. Do mesmo modo escreve-se cada função de duas variáveis da segunda soma de (2.5) na forma

fij(xi,xj)= ] T amBm(xi,Xj), (2.7)

■Km =2 (ij)€V(m)

que representa a s o m a d e t o d a s a s funções b a s e envolvendo e x a c t a m e n t e as variáveis Xi e Xj.

A contribuição p a r a o m o d e l o d e d u a s variáveis específicas, digamos Xi e Xj, p o d e ser avaliada

r e p r e s e n t a n d o graficamente a função

Termos envolvendo mais variáveis são associados e representados de modo análogo. A con tribuição para o modelo de três ou mais variáveis específicas é usualmente avaliada representando a correspondente função / * nos vários pares de variáveis para valores fixos das outras variáveis. A representação de (2.4) na decomposição ANOVA (2.5) permitenos identificar facilmente as variáveis intervenientes no modelo, averiguar se são puramente aditivas ou estão envolvidas em interacções com outras variáveis e identificar o nível das interacções existentes.

2 . 4 O c r i t é r i o L O F : e s t i m a d o r d a ineficiência d a f u n ç ã o a p r o x i m a n t e

A função LOF{}M) fornece, com base nos dados, um estimador do erro de futuras previsões

obtidas a partir da função aproximante / M NO decorrer do programa são determinados os parâmetros do procedimento que minimizam esta função.

Como em [Friedman, 88] e [Friedman k Silverman, 89] utilizamos uma forma modificada do critério generalizado de validação cruzada (GCV) originalmente proposto por [Craven k Wahba,

7 9 , :

£ E Í V Í / M M ]

IX>F (/„) = GCV (M) = \ ^ ■ <2'8>

O critério GCV representa o erro quadrático médio com que a função aproximante apro xima os dados (numerador) multiplicado por um factor (inverso do denominador) que penaliza o aumento da variância associado ao aumento da complexidade do modelo (número de funções base).

Se os valores dos parâmetros das funções base (o número de factores Km, as variáveis v (k, m),

a localização dos "knots" tkm e os sinais Skm), associados ao programa MARS, fossem de

terminados independentemente dos valores de resposta dos dados, (yi,...,2/jv), então apenas os coeficientes (ao, a1? ..., aM) teriam de ser ajustados aos dados. Neste caso a função de

custocomplexidade seria dada por

C (M) = tr ÍB (BTB) ~l BA+1, (2.9)

sendo B a matriz M x JV dos valores tomados pelas funções base em cada elemento dos dados

(Bij = Bi(xj)), [Friedman, 91]. Este valor representa o número de funções base linearmente

independentes em (2.4) e portanto o número de coeficientes a determinar. As expressões (2.8) e (2.9) definem o critério GCV de [Craven k Wahba, 79].

No entanto, tal como no programa CART, o programa MARS utiliza exaustivamente os valores resposta dos dados para determinar o conjunto de funções base (sendo a sua eficácia e flexibilidade devida, em grande parte, a esta utilização).

Embora a utilização dos valores de resposta dos dados, na determinação das funções base, conduza geralmente a diminuições drásticas do viés do modelo ela origina simultaneamente um aumento da variância, porque novos parâmetros (os das funções base) têm de ser ajustados. A redução do viés diminui acentuadamente o valor estimado do erro (numerador de (3.8)). Contudo, o inverso do denominador (2.8), com C (M) definido por (2.9), reflecte apenas a variância associada à determinação dos coeficientes (ao, ai, ..., CLM), não reflectindo portanto o aumento da variância devido ao número adicional de parâmetros a ajustar.

[Friedman & Silverman, 89] sugeriram a utilização de (2.8) para estimar a ineficiência de função aproximante mas com uma função de custo-complexidade modificada. A nova função de custo-complexidade, tem em conta, tanto os coeficientes (ao, ai, ..., ajií) como os parâmetros adicionais das funções base a ajustar, e é dada por:

C{M) = C(M)+dM. (2.10)

Nesta expressão C (M) é determinado por (2.9) e M é o número de funções base não cons- tantes produzidas pelo método MARS ( número este proporcional ao número de parâmetros dessas funções). A quantidade d representa um custo associado à optimização de cada função base. Valores elevados de d conduzem à utilização de menos "knots" e portanto a um modelo mais "suave". Um método de escolha do valor de d consiste em interpertar este valor como um parâmetro do procedimento utilizado para controlar o grau de "suavidade" imposto à solução.

Estudos efectuados em variados conjuntos de dados simulados conduziram aos seguintes re- sultados:

1. o melhor valor de d é praticamente independente dos valores de M, N, n e das distribuições das variáveis do espaço de predição;

2. em todas as situações estudadas o melhor valor de d pertence ao intervalo [2,4]; 3. a aproximação (2.10), com d = 3, é geralmente eficiente;

4. o valor de GCV para o modelo final do método MARS depende moderadamente do valor escolhido para d;

5. a eficiência real do modelo é praticamente insensível à escolha do valor de d neste intervalo.

Uma consequência de 4 e 5 é que, embora a eficiência real do modelo produzido pelo método MARS não dependa do valor de d, a eficiência que pensamos estar a produzir (baseados no critério GCV modificado) depende desse valor. Em [Friedman k Silverman, 89] são dados argumentos para a escolha de d = 2 no caso de modelos aditivos. Nos restantes casos toma-se, em geral, d = 3.

No documento Árvores de regressão e generalizações : Aplicações (páginas 36-43)